Войдите или
создайте профиль

 Присоединиться

ВойтиНовый пользовательЗабыли пароль?

Через соцсети

Как Google преобразовывает языковой перевод в математическую проблему векторного пространства

5.6kпросмотров

Google, Математика, перевод

Чтобы перевести текст с одного языка на другой, найдите линейный преобразователь, который спроецирует один на другой. «Все просто» скажет команда инженеров Google.

Популярное

Инди игры с необычайно красивой графикой

Необычные гаджеты, которые в скором времени обещают войти в нашу жизнь

Когда наступит четвертая мировая? Андрей Курпатов на QWERTY

Новости на QWERTY. Потерянное вещество Вселенной, человеческий кишечник крыс и большой телескоп.

Информатика меняет природу перевода слов и предложений из одного языка в другой. Все, кто когда-либо пользовался BabelFish или Google Translate, знают, что подобные сервисы весьма полезны, однако их перевод далек от совершенства.

Основная идея состоит в том, чтобы сравнить основание слова на одном языке с тем же самым основанием, но переведенным на другой. Слова и фразы, которые разделяют схожие статистические свойства, считают эквивалентными.

Но есть проблема: начальные переводы основаны на словарях, составленных экспертами, а это отнимает время и силы, поэтому Томас Миколов и еще несколько сотрудников Google в Маунтин-Вью разработали технологию, которая автоматически генерирует словари и таблицы фраз, преобразовывающие один язык в другой.

Новая технология не полагается на версии того же документа на различных языках. Вместо этого она использует методы сбора данных, моделирующие структуру одного языка и затем сравнивающие ее со структурой другого.

Этот метод можно использовать в поддержку к словарям и таблицам для любых языковых пар

Новый подход относительно прост. Он опирается на понятие о том, что каждый язык должен описывать примерно одинаковый набор идей, а значит и слова примерно одинаковы. Например, в большинстве языков существуют слова, обозначающие животных, например, кошка, собака, корова и так далее. И используются эти слова в одинаковых ситуациях. Например, «кошка меньше собаки».

машинный перевод

То же самое относится и к числам. На изображении выше показано векторное представление чисел от одного до пяти на английском и испанском языках. Как можно заметить, они довольно похожи.

И это важно. Язык представлен в виде отношений между словами. Набор всех отношений, так называемое “языковое пространство”, можно представить в виде ряда векторов от одного слова до другого. В последние годы лингвисты обратили внимание на то, что на эти векторы можно посмотреть с математической точки зрения. Например, операция «король» – «мужчина» + «женщина» приводит к вектору, обозначающему «королеву».

Оказывается, что в этом векторном пространстве у языков много общего. Это означает, что процесс преобразования одного языка в другой схож с преобразованием одного векторного пространства в другое.

Этот факт переносит проблему перевода из лингвистической в математическую. Таким образом, перед командой Google стоит задача найти способ точного преобразования одного векторного пространства в другое. Для этого берется маленький двуязычный словарь, созданный специалистом. Идентичные основания слов двух различных языков дают готовое линейное преобразование.

Обнаружив это соответствие, можно приступить и к более крупным языковым пространствам.

Миколов и его коллеги утверждают, что это работает.

человеко-машинный перевод

Несмотря на простоту, метод удивительно эффективен. При переводе с испанского на английский и наоборот точность может достигать 90%

Данный метод позволяет не только расширить и усовершенствовать существующие словари, но и выявить ошибки в них. Так, команда Google обнаружила множество недочетов в англо-чешском словаре.

Наконец, команда отмечает, что раз техника работает со структурой языка, то ее можно использовать и в жаргонах, которые абсолютно не связаны.

У испанского и английского языков есть общая индоевропейская история, однако Миколов настаивает, что их новый метод будет также точно работать и с менее родственными языковыми парами, например, английским и вьетнамским языками.

Это шаг вперед в области многоязычной коммуникации. Однако команда говорит, что это только начало.

Очевидно, что мы еще многого не умеем

Комментарии

Незарегистрированные пользователи могут оставить комментарий через виджет Вконтакта, Фейсбука или использовать нашу платформу. Ваш выбор мы запомним (в хорошем смысле)

Вконтактик

Фейсбучек

Для членов клуба



ВЫ НЕ МОЖЕТЕ ОСТАВИТЬ КОММЕНТАРИЙ необходимо зарегистрироваться или войти

26 сентября 2013

репост в:

twitter

facebook

вконтакте

Партнер Рамблера

qwrt.ru — иллюстрированный интернет-журнал о научной науке и технологичных технологиях, тенденциях в IT и интернете, о необычных гаджетах и изобретениях. Пишем обо всем, что интересно нам и нашим читателям. Хотя... кого волнуют читатели?

info@qwrt.ru по любым вопросам

Вконтакте не самый оперативный, но веселый паблик

Теги в тренде смартфон, Apple, общество, Android, космос, Google, дизайн, планшет, концепт, поп-культура, соцсети, iPhone