В этом коротком блоге я расскажу, как выполнять перевод текста с помощью популярной библиотеки Transformer от Huggingface🤗

Если вы ищете какую-то уже доступную модель, которая способна переводить заданный текст на каком-то заданном языке X в некоторый текст на языке Y. Тогда Группа исследований языковых технологий Хельсинкского университета предоставила нам более 1300 машинных переводов (MT) модели, которые легко доступны на платформе HuggingFace. Вот ссылка на страницу, где собраны все модели МТ.

Как упоминалось ранее, вот небольшое руководство по преобразованию английского текста в текст на хинди. И это руководство можно легко распространить на любую языковую пару (при наличии соответствующей модели). Когда вы посетите страницу репозитория их модели MT, вы увидите что-то вроде этого, как показано ниже.

Поиск подходящей модели MT, соответствующей вашим требованиям

Вы заметили выше, что Helsinki-NLP/opus-mt является общим для всех моделей. Просто остальная часть отличается у всех. Это означает, что все имена моделей имеют следующий формат: Helsinki-NLP/opus-mt-{src}-{tgt}, где заполнители src и tgt содержат коды языков . Таким образом, для перевода текста с английского на хинди название модели должно быть Helsinki-NLP/opus-mt-en-hi.

Кратко о Хельсинки-НЛП/opus-mt-en-hi

Данная модель обучена на наборе данных OPUS. Эта открытая параллель представляет собой собрание переведенных текстов из Интернета. Он также включает переводы веб-страниц Wikipedia, WikiSource, WikiBooks, WikiNews и WikiQuote. Эта страница GitHub будет содержать ссылку для загрузки исходного и целевого текстов, полученных с веб-страниц вики. И обязательный этап предварительной обработки также включает токенизацию текста с помощью библиотеки SentencePiece. Я не буду вдаваться в подробности об их архитектуре и прочем. Но если вам интересно узнать больше, то здесь, в этом репозитории GitHub, вы можете копнуть глубже и найти все свои ответы.

Код плюс вывод

Вот фрагмент кода, необходимый для преобразования текста с английского на хинди.

И текст на хинди, созданный из приведенного выше кода, кажется, хорошо переведен для некоторых предложений. Но для нескольких предложений перевод не на должном уровне. Попробуйте и проверьте любой текст на английском языке и протестируйте его.

Мы также можем настроить эту модель перевода текста, еще больше повысить ее производительность и заставить ее лучше выполнять наши собственные задачи. Любители ноутбуков могут ознакомиться с этим блокнотом Colab и приступить к работе. Наслаждайтесь машинным переводом…. !!!