Обезьяна шпионит за питоном и начинает визжать, поднимая тревогу и указывая на опасность для всех существ в лесу. Птица исполняет запутанный и яркий танец, чтобы показать свой интерес к потенциальному спутнику жизни и продемонстрировать свое эстетическое мастерство. Нервная собака рычит, предупреждая всех держаться подальше - иначе.

Потребность в общении - основная черта всех живых существ (даже растений).

Люди, очень социальные животные, которыми мы являемся, не являются исключением. Мы питаем исключительно сильное желание не только общаться друг с другом, но и понимать друг друга.

Именно это движущее желание общаться привело к развитию многих наших богатых и разнообразных языков. Сложные языки, способные передавать мысли, чувства и абстрактные идеи, как никогда раньше. Эта способность общаться позволила нам координировать свои действия, учиться друг у друга и быстро строить нашу империю.

Глубина и сложность нашего языка - палка о двух концах. Хотя общий язык объединяет тех, кто на нем говорит, он также может создавать разделение между теми, кто не владеет им, и это разъединение от тех, с кем мы не можем напрямую общаться, остается огромной проблемой в нашем обществе сегодня. Изучение нового языка - масштабное мероприятие, требующее огромного количества времени и усилий - и даже тогда, когда люди говорят на сотнях уникальных языков, это неэффективный вариант для большинства людей, которые могут просто захотеть иметь возможность разговор с окружающими. Профессиональный перевод возможен, но трудоемок и требует стороннего человеческого канала, что приносит в жертву конфиденциальность.

С появлением компьютеров нам стал доступен другой вариант. Машинный перевод.

Со своего скромного начала, технологии машинного перевода быстро продвинулись туда, где они есть сегодня. Исходные модели машинного перевода были «основаны на правилах», что означало создание переводов на основе двух основных компонентов: словаря для прямого сопоставления слов исходного языка с их эквивалентами на целевом языке и двух наборов правил для определения грамматики и структура предложений каждого языка. Переводы, произведенные этой ранней системой, были впечатляющими для своего времени, но примитивными по современным стандартам, не учитывали контекст, идиомы, омографы и многие другие неотъемлемые части человеческого языка.

Ближе к концу 1940-х годов Уоррен Уивер (американский ученый и пионер машинного перевода в США) представил новую парадигму, получившую название статистический машинный перевод или SMT. В основе SMT лежит определение вероятности того, что строка на одном языке является переводом строки на другой, и основание переводов на наиболее вероятных результатах. Чтобы вычислить эту вероятность, машины были обучены с помощью параллельных корпусов.

Термин «параллельные корпуса» относится к двум, часто очень большим, корпусам «естественно созданного» текста (то есть текста, написанного таким образом, который точно отражает и характеризует типичное использование языка или диалекта, на котором он написан), один из который является переводом другого. Аналогичным примером этой концепции может быть роман и его перевод.

Этот новый подход к машинному переводу, хотя и увлекательный, был в значительной степени непрактичным во время его появления из-за ограниченных вычислительных мощностей того времени. Только в конце 1980-х годов статистический машинный перевод пережил свое возрождение, и он был повторно принят и разработан исследователями из Исследовательского центра Томаса Дж. Ватсона IBM. Созданные оригинальные модели были «словесными», то есть их логика зависела от вероятности того, что отдельные слова имеют определенный перевод в учебном материале. Эта система, хотя и была усовершенствована в некоторых областях, имела многие из тех же ограничений, что и системы, основанные на правилах, и была быстро заменена менее детализированными моделями, основанными на фразах.

Фразовая модель была похожа по концепции на ее словесный аналог, но отличалась тем, что она обрабатывала, как вы уже догадались, фразы, а не отдельные слова. Описанные здесь «фразы» не обязательно являются «фразами» в литературном смысле, а скорее представляют собой просто наборы смежных слов в фрагменте текста. Эти наборы называются n-граммами, где n - количество слов в наборе. Например, из предложения:

«Собака съела мою еду».

Мы могли бы извлечь 3-граммы (также называемые триграммами) «собака съела», «собака съела мою» и «съела мою еду». Многие реализации n-граммов также считают начало и конец предложения элементами, и в этом случае мы могли бы извлечь что-то вроде:

«‹START› Собака», «Собака съела», «Собака съела мою», «съела мою еду», «Моя еда ‹END›»

Такой подход позволил значительно расширить нюансы при переводе. Это снова был большой скачок для MT. В коротких отрывках скорость перевода резко улучшилась. Однако статистический фразовый перевод все еще был подвержен множеству «здравых» ошибок, особенно в длинных текстах.

Возьмем, например, следующие предложения:

«Это было написано красной ручкой».

«Загон для свиней был полон грязи».

Для вас и меня значение этих двух предложений, вероятно, совершенно ясно. Как люди, мы автоматически принимаем во внимание контекст. Мы знаем, что «перо» в первом предложении означает нечто иное, чем «перо» во втором предложении. Модель STM на основе слов, скорее всего, не сможет точно передать значение второго предложения, в то время как STM на основе фраз с большей вероятностью сможет обрабатывать оба предложения, поскольку она будет проверять наибольшее количество переводов «свинья». pen », найденный в его частотной таблице, и обнаружил, что чаще всего его переводили на слова, означающие« загон, где содержатся свиньи ». Чтобы продвинуться дальше, рассмотрим следующее предложение.

«В контактном зоопарке был сувенирный магазин со всевозможными милыми безделушками на тему животных, включая коричневые записные книжки с коровами и загоны для розовых свиней».

Опять же, несмотря на статистически маловероятное использование фразы «загон для свиней», большинство людей, прочитавших это предложение, все равно поймут, что имеется в виду.

Модель, основанная на фразе, скорее всего, не сможет правильно проанализировать значение слова «ручка» в этом предложении, поскольку она будет учитывать только контекст, непосредственно окружающий слово, а не контекст всего предложения. Для того, чтобы расшифровать значение слова «ручка» во всех трех предложениях, необходимо:

  1. Знание всех слов в предложениях и их значений.
  2. «Кратковременная память»: способность использовать контекст, непосредственно окружающий слово, чтобы сделать вывод о его значении.
  3. «Долговременная память» - в третьем предложении мы видим слова «свинья» и «перо» вместе, но также должны вспомнить и рассмотреть менее двусмысленные, но синтаксически и тематически похожие «коровьи тетради», которые мы видели ранее, а также контекст «безделушек на тему животных», и поэтому сделаем вывод, что наиболее распространенное значение «загон свиньи», вероятно, здесь не применимо.

Именно в пункте 3 наша система фразового перевода наиболее явно терпит неудачу. Хотя модель способна сопоставить строку «свиное перо» с ключом в своей частотной таблице, она не учитывает «контекст» всего предложения и, таким образом, не может обеспечить точный перевод.

И именно здесь мы достигаем сегодняшнего дня в истории и находим решение этой проблемы в настоящий момент: нейронный машинный перевод.

На момент написания нейронный машинный перевод или NMT - это современный метод быстрого и точного перевода, который в настоящее время используется Google Translate. Структура NMT, как следует из названия, представляет собой нейронную сеть.

Нейронная сеть - это сложная вычислительная система, состоящая из большого количества взаимосвязанных узлов, аналогичных структуре мозга животных. Нейронные сети, как и наш собственный мозг животных, особенно хорошо подходят для распознавания образов, и их можно обучить различным функциям на примере, вместо того, чтобы вводить конкретные инструкции для данной задачи. Это делает их очень гибкими и, возможно, более доступными в качестве модели для языковой обработки, чем некоторые старые системы, такие как перевод на основе правил, который часто требует высокоспециализированных и глубоких знаний лингвистики и языковой структуры для программирования.

Еще одним важным преимуществом NMT является его способность обрабатывать целые предложения, в отличие от фрагментов, обрабатываемых SMT. Процесс, с помощью которого это происходит, сложен, но функционирует на основе структуры кодирования-декодирования, в которой предложение сначала кодируется в вектор (вектор в программировании - это, по сути, динамический одномерный массив, содержащий n значений в определенном порядке), , а затем декодируется так, что нейронная сеть определяет наиболее вероятный перевод на целевой язык.

Превосходное подробное объяснение того, что именно происходит внутри процесса кодирования и декодирования, включая учебник по кодированию, можно найти в статье Куинна Ланнерса Нейронный машинный перевод. Эта превосходная способность включать контекст из более раннего предложения дает переводы, которые, как правило, намного ближе по беглости к тому, что может произвести человек, чем к чему-либо, что машины были способны произвести любым другим способом.

Прогресс, которого мы достигли в области машинного перевода, бесспорно невероятен, но, возможно, еще более невероятным является тот факт, что даже по прошествии 70 лет «идеальный» машинный перевод все еще ускользает от нас так же, как и он. Разработка программного обеспечения для беглого и аутентичного перевода остается одной из главных проблем в области машинного обучения, и это может говорить только о непревзойденной сложности и тонкости человеческого общения - глубокой любви к выражению, которая выходит далеко за рамки простого письменного или устного язык.

[1]: Ричард Брюс Паркинсон, профессор египтологии Оксфордского университета и член Королевского колледжа Оксфорда. 15 марта 2017 г.

[2]: Роберт К. Пламб, «Быстрый электронный компьютер превращает русский язык в английский», The New York Times, 8 января 1954 г.

[3]: Архивный центр Рокфеллера

[4]: ​​Чжан, Цзяцзюнь и Лю, Шуцзе и Ли, Му и Чжоу, Мин и Цзун, Чэнцин. За пределами модели языка на основе слов в статистическом машинном переводе. 2015

[5]: Самуэль Ляубли. SlatorCon Zürich. 2018