Как Google преобразовывает языковой перевод в математическую проблему векторного пространства
Чтобы перевести текст с одного языка на другой, найдите линейный преобразователь, который спроецирует один на другой. «Все просто» скажет команда инженеров Google.
Информатика меняет природу перевода слов и предложений из одного языка в другой. Все, кто когда-либо пользовался BabelFish или Google Translate, знают, что подобные сервисы весьма полезны, однако их перевод далек от совершенства.
Основная идея состоит в том, чтобы сравнить основание слова на одном языке с тем же самым основанием, но переведенным на другой. Слова и фразы, которые разделяют схожие статистические свойства, считают эквивалентными.
Но есть проблема: начальные переводы основаны на словарях, составленных экспертами, а это отнимает время и силы, поэтому Томас Миколов и еще несколько сотрудников Google в Маунтин-Вью разработали технологию, которая автоматически генерирует словари и таблицы фраз, преобразовывающие один язык в другой.
Новая технология не полагается на версии того же документа на различных языках. Вместо этого она использует методы сбора данных, моделирующие структуру одного языка и затем сравнивающие ее со структурой другого.
Новый подход относительно прост. Он опирается на понятие о том, что каждый язык должен описывать примерно одинаковый набор идей, а значит и слова примерно одинаковы. Например, в большинстве языков существуют слова, обозначающие животных, например, кошка, собака, корова и так далее. И используются эти слова в одинаковых ситуациях. Например, «кошка меньше собаки».
То же самое относится и к числам. На изображении выше показано векторное представление чисел от одного до пяти на английском и испанском языках. Как можно заметить, они довольно похожи.
И это важно. Язык представлен в виде отношений между словами. Набор всех отношений, так называемое “языковое пространство”, можно представить в виде ряда векторов от одного слова до другого. В последние годы лингвисты обратили внимание на то, что на эти векторы можно посмотреть с математической точки зрения. Например, операция «король» – «мужчина» + «женщина» приводит к вектору, обозначающему «королеву».
Этот факт переносит проблему перевода из лингвистической в математическую. Таким образом, перед командой Google стоит задача найти способ точного преобразования одного векторного пространства в другое. Для этого берется маленький двуязычный словарь, созданный специалистом. Идентичные основания слов двух различных языков дают готовое линейное преобразование.
Обнаружив это соответствие, можно приступить и к более крупным языковым пространствам.
Миколов и его коллеги утверждают, что это работает.
Данный метод позволяет не только расширить и усовершенствовать существующие словари, но и выявить ошибки в них. Так, команда Google обнаружила множество недочетов в англо-чешском словаре.
Наконец, команда отмечает, что раз техника работает со структурой языка, то ее можно использовать и в жаргонах, которые абсолютно не связаны.
У испанского и английского языков есть общая индоевропейская история, однако Миколов настаивает, что их новый метод будет также точно работать и с менее родственными языковыми парами, например, английским и вьетнамским языками.
Это шаг вперед в области многоязычной коммуникации. Однако команда говорит, что это только начало.