Приложение Khaya AI расширяется в Северной Гане с добавлением Gurene (альтернативно Frafra или Farefare), а также в Кении с добавлением Kikuyu, Kimeru & Luo. Также включает улучшения распознавания речи Dagbani

Далее описывается работа, проделанная командами NLP Ghana и Algorine по демократизации доступа к современным инструментам машинного обучения для ганского и других африканских языков. В частности, он охватывает работу, предшествовавшую выпуску версии 1.0.5 приложения Khaya AI, и представляет достижения в области автоматического распознавания речи (ASR) и машинного перевода на современном уровне для более чем 15 миллионов человек. человек в Африке, особенно в Гане, Буркина-Фасо и Кении

Напоминание — что послужило источником вдохновения для названия Khaya AI?

Khaya AI названа в честь Африканского красного дерева Khaya. Как и дерево, оно уходит своими корнями в Африку. Мы надеемся, что он также станет питательным и поддерживающим ресурсом для Африки и африканцев в цифровом будущем. Это также слово, обозначающее дом в нескольких южноафриканских языках.

Что могла сделать предыдущая версия Khaya AI?

Предыдущая версия 1.0.4 приложения Khaya AI могла выполнять автоматическое распознавание речи (ASR) в Twi, Ga, Yoruba и Dagbani, а также в переводчиках текста с нейронным машинным обучением Ga, Ewe, Twi, Yoruba. Это включало в себя решающую способность собирать отзывы от общественности, чтобы со временем улучшать ее качество. Нажмите здесь, чтобы прочитать нашу статью с анонсом v1.0.4.

В течение прошлого года команда работала над улучшением возможностей этих систем машинного обучения. Мы рады выпустить сегодня версию 1.0.5 приложения Khaya AI, демонстрирующую улучшения качества и расширенный языковой охват. Вы уже можете использовать приложение в Интернете, Android, iOS или через API в своих собственных приложениях, перейдя по ссылкам в https://linktr.ee/nlpghana.

Мы описываем различные улучшения, достигнутые в этой статье, как показано в следующем списке и последующих разделах.

Что может новая версия Khaya AI?

Основные моменты

1. Добавлен текстовый перевод Gurene (также известный как Farefare или Frafra), расширяющий языковой охват Khaya в Северной Гане.

2. Сотрудничество с Гарвардской школой африканского языка по кенийским языкам позволило нам добавить в систему текстовые переводчики кикуйю, кимеру и луо. Это подчеркивает нашу приверженность предоставлению решений мирового класса по всей Африке — везде, где они необходимы.

3. Мы улучшили систему Dagbani ASR, создав открытый корпус речи Dagbani.

4. Текстовые переводчики продолжают совершенствоваться

Теперь давайте углубимся в выпускаемые улучшения и текущую работу.

Представление Gurene, поскольку расширение в Северной Гане продолжается

В версии 1.0.4 приложения, выпущенной в прошлом году, мы представили наш первый язык Северной Ганы — дагбани. На этот раз мы добавляем в приложение Gurene aka Frafra. По данным Ethnologue, на этом языке говорят более 700 000 человек. Насколько нам известно, это первое и единственное приложение, предоставляющее возможности машинного перевода для этого языка.

Для этого мы тесно сотрудничали с экспертами по родным языкам из группы Gurene Wikimedia, чтобы создать набор данных из более чем 17 000 переводов Gurene. Затем наши обычные модели ванильного трансформатора были обучены на данных. Полученные баллы BLEU составили 29 для Gurene на английский и 21 для английского на Gurene. Мы находимся в процессе публикации данных и деталей процесса их сбора. Следите за обновлениями.

Кикуйю, Кимеру и Луо представлены как Кая растет в Кении

Хотя наша цель при запуске Ghana NLP состояла в том, чтобы кто-то отдавал приоритет ганским языкам в исследованиях ИИ, мы также стремились предоставлять решения везде, где они необходимы в Африке. В этом обновлении мы с гордостью включили в наше обновление текстовые переводчики Kikuyu, Kimeru и Luo. Обратите внимание, что ни один из этих языков не доступен в Google Translate.

Мы тесно сотрудничали с профессором Джоном Мугане из Гарвардской школы африканского языка, кенийцем, и нам удалось привлечь носителей языка для создания высококачественных наборов данных для этих языков. Мы позаботились о том, чтобы включить в данные как новости, разговорную речь, так и данные по как можно большему количеству доменов, чтобы сделать их репрезентативными. Затем они использовались для обучения наших моделей перевода текста ванильного трансформатора.

На кикуйю говорят около 6,5 миллионов человек, а на луо - более 4 миллионов (по данным Ethnologue). Единственная модель машинного перевода, доступная для этих языков, — это модель Meta NLLB (No Language Left Behind). Таким образом, мы сравнили нашу модель с NLLB на собственном тесте Meta для этого, то есть FLORES-200. Для сравнения мы использовали дистиллированную версию NLLB с ​​600-метровым параметром, чтобы сделать ее более справедливой, поскольку размер наших моделей меньше 80-метрового параметра.

Мы обнаружили, что в то время как NLLB набрал 9 баллов в направлении с английского на кикуйю, он набрал 3 балла в направлении с кикуйю на английский. Хая, с другой стороны, набрала более 11 баллов по английскому языку на кикуйю и более 16 баллов по кикуйю на английский язык. Эта разница заключается в том, что разница в производительности становится еще более заметной, когда мы использовали наши собственные более качественные и более репрезентативные данные в качестве эталона.

Например, для перевода с английского на луо NLLB набирает около 15 баллов, в то время как Khaya набирает около 20 баллов в нашем тесте более высокого качества. Для луо на английский Хайя набрала 31 балл, в то время как NLLB набрал ничтожные 2 балла. Особенно при переводе на английский язык NLLB явно очень плохой и даже близко не стоит.

Эти сравнения были подтверждены оценщиками-людьми, которые обнаружили, что NLLB в целом практически непригоден для использования, но большую часть времени были впечатлены результатами Khaya.

Насколько нам известно, для кимеру, на котором говорят более 2 миллионов человек, никакие другие модели перевода недоступны (в настоящее время NLLB не распространяется на него). 23 и 10 баллов BLEU были получены для переводов с английского на английский и с английского на кимеру, соответственно, в наших контрольных тестах высокого качества.

Мы находимся в процессе публикации данных и деталей процесса их сбора. Следите за обновлениями.

Улучшено распознавание речи Dagbani

В версии 1.0.4 приложения мы добавили возможность распознавать дагбани, но она была ограничена отдельными словами из-за ограничений доступных обучающих данных. В течение прошлого года мы тесно сотрудничали с группой Dagbani Wikimedia, чтобы создать набор аудиоданных и обучить модель распознавания речи, которая может обрабатывать более длинные высказывания. Эта модель теперь доступна в приложении и API Khaya. Мы опубликовали данные и подробности процедуры сбора данных на AfricaNLP 2023 Kigali Workshop, если вы заинтересованы в продолжении нашей работы.

Другие улучшения переводчика текста

Наши переводчики продолжают совершенствоваться по всем направлениям благодаря отзывам людей, отправленным через приложение, а также благодаря другим нововведениям. Пожалуйста, следите за обновлениями для других рецензируемых публикаций, сообщающих об этом в ближайшем будущем.

Что дальше?

1. Будет добавлено еще много языков в Гане и по всей Африке. У нас есть много моделей, которые готовятся к выпуску, но мы хотим гарантировать качество — наши модели должны быть лучшими и соответствовать минимальному порогу юзабилити, чтобы претендовать на выпуск. Это требует довольно много времени и усилий, поэтому мы благодарим вас за ваше терпение, поскольку мы усердно работаем над добавлением новых языков!

2. Многие люди просили о возможностях преобразования текста в речь — они должны стать доступными для некоторых языков в этом году!

3. Мы уже выпустили API, который вы можете использовать для интеграции текстовых переводчиков в свои собственные приложения — https://translation.ghananlp.org/. Через несколько недель мы выпустим распознавание речи в этом API, а за ним последует преобразование текста в речь.

Благодарности

Большое спасибо Google за кредиты GCP, использованные для обучения и оценки моделей. Спасибо Абдулаю Диаку за помощь в этом процессе для нас в Google. Большая благодарность Президентскому фонду ускорения исследований в Африке Моцепе за финансирование, которое было использовано для сбора описанных данных. Большое спасибо профессору Джону Мугане и его команде по сбору данных, а также группам Gurene и Dagbani Wikimedia за предоставление своего лингвистического опыта! Большое спасибо г-ну Садику Шахаду и г-ну Абугре Аньориджа за многочисленные содержательные обсуждения.