«Нейронные сети в соцсети»: теперь Facebook использует искусственный интеллект для перевода текста
Шумят чужие города, люди и слова
Каждый день Facebook выполняет порядка 4,5 млрд машинных переводов текста.
Но с недавних пор весь массив данных обрабатывается с помощью нейронных сетей.
Раньше сайт применял более простые модели машинного перевода на основе фраз, но теперь его перевели на использование более продвинутого метода.
«Создание точных переводов на живом языке для 2 миллиардов пользователей по всему миру - это сложная задача, - прокомментировала Facebook в своем блоге. - Нужно одновременно учитывать контекст, сленг, опечатки, сокращения и делать это синхронно».
Эффект Google-переводчика
Большая разница между старой системой и новой - такое понятие как «интервал внимания».
Интервал внимания - это количество времени, которое человек может потратить на задание, не отвлекаясь.
Проще говоря, максимальная концентрация на единицу времени - процесс перевода не должен занимать много времени, а то люди начнуть зевать.
В то время как фразовая система переводит каждое слово отдельно (или короткие фразы), нейронные сети обрабатывают целые предложения за раз, при этом учитывают контекст написанного, чтобы это не звучало косноязычно.
Новый прекрасный переводчик делает всё так круто, потому что использует особую архитектуру машинного обучения.
Она известна как LSTM или «долгая краткосрочная память».
Нейронная LSTM-сеть хорошо приспособлена к обучению на задачах классификации.
Например, эта штука на отлично справляется с распознаванием несегментированного слитного рукописного текста и устной речи.
Где перевод, Лебовски?
Преимущества довольно ясны.
Вот, сравните эти два примера Facebook-перевода с турецкого на английский.
Верхний - пример работы старой системы на основе фраз, а нижний - новая технология.
Как можно видеть, способность системы понимать контекст написанного дает более точный результат.
Мнения незаинтересованных сторон
«Новая система демонстрирует 11% рост индекса BLEU - широко используемый показатель для оценки точности машинного перевода. Алгоритм BLEU оценивает качество перевода по шкале от 0 до 100 на основании сравнения человеческого перевода и машинного», - сообщили в Facebook.
Когда слово в предложении не имеет прямого аналога языке, на который делается перевод, нейронная система подберет корректный синоним для такого слова.
Поиск семантического аналога для такого слова осуществляется в словаре Facebook, который сформирован на основе данных машинного обучения.
Это также позволяет распознавать аббревиатуры типа «tmrw» (tomorrow) в их предполагаемом значении - «завтра».