Приложения машинного обучения для распознавания речи и изучения языков:

Пример использования ELSA Speak

Внедрение приложения: ELSA Speak

ELSA (English Language Speech Assistant) Speak — это мобильное приложение для обучения произношению на основе искусственного интеллекта для тех, для кого английский язык не является родным. Его основали генеральный директор Ву Ван и технический директор Ксавье Ангера, эксперт по распознаванию речи. Компания привлекла более 27 миллионов долларов и поддерживается несколькими ведущими венчурными фондами, в том числе фондом искусственного интеллекта Google (Shu, 2021). Его клиентами являются изучающие английский язык и такие организации, как работодатели и школы. В настоящее время у ELSA более 13 миллионов пользователей в 101 стране.

ELSA относится к категории Компьютерное изучение языков (CALL). Его основной архитектурой является алгоритм «запатентованного искусственного интеллекта», который позволяет мгновенно оценивать произношение пользователей и показывать им, как его улучшить (Nguyen, n.d.). ESLA был выбран для этого тематического исследования по двум причинам. Во-первых, у него есть передовая система искусственного интеллекта, которая вошла в пятерку лучших приложений искусственного интеллекта в 2022 году, что впечатляет для компании среднего размера по сравнению с другими крупными технологическими компаниями (Davies, 2022). Во-вторых, автору этой статьи удалось взять интервью у ее главного технолога Ксавьера Ангеры.

Когда пользователи впервые открывают ELSA, они могут выбрать свой родной язык (L1) среди 30 доступных вариантов. ELSA использует эту информацию для настройки планов уроков и прогнозирования распространенных ошибок среди их конкретной группы говорящих на первом уровне. После этого пользователям будет предложен короткий тест для определения их уровня владения английским языком. В зависимости от уровня владения языком ELSA предлагает различные упражнения, разбитые по темам, например. собеседование при приеме на работу, отпуск и навыки, например. звонкие и глухие. Пользователи могут выбрать навык, который они хотят практиковать, и нажать кнопку перекодирования. Затем ELSA оценивает и возвращает оценку до 100, а также указывает, где именно есть ошибки. Он также создает диаграмму с разбивкой того, как пользователи работают в 5 различных аспектах, то есть произношении, интонации, беглости, ударении и слушании (минимум пар). Для обучения тактике приложение использует геймификацию и персонализацию. Как объяснялось выше, у пользователей есть индивидуальные планы уроков, основанные на уровне разговорной речи и родном языке. Кроме того, приложение разработано в интерактивном режиме с дружественным пользовательским интерфейсом, похожим на мобильную игру. Уроки навыков разделены на разные уровни, от простого до сложного, которые пользователи могут пройти, чтобы повысить уровень и заработать значки.

Современное состояние: технологии распознавания речи

Распознавание речи, также известное как автоматическое распознавание речи (ASR), является одной из самых сложных областей искусственного интеллекта, поскольку оно сочетает в себе машинное обучение (ML), лингвистику, статистику и математику. За прошедшие годы в ASR было сделано несколько улучшений. Одной из популярных систем является скрытая модель Маркова (HMM). В распознавании речи на основе HMM речь представляется как последовательность наблюдений. HMM позволяет нам включать оба наблюдаемых события, т.е. слова и скрытые события. Другой подход заключается в использовании N-грамм. Эта модель присваивает вероятности различным единицам речи, где N представляет собой количество слов. Затем алгоритм использует вероятность определенных последовательностей слов и грамматики для генерации выходных данных.

Совсем недавно значительное внимание привлекли нейронные сети, основанные на глубоком обучении. В этом подходе данные обучаются с использованием слоев узлов, которые имитируют взаимосвязь человеческого мозга. Глубокие нейронные сети (DNN) добились огромных успехов в различных областях ИИ. В распознавании речи нейронные сети оказались удивительно точными, особенно в классификации фонем, распознавании отдельных слов и распознавании аудиовизуальной речи (Yin et al., 2015). Хотя нейронная сеть существует с 1980-х годов, она не работает хорошо по сравнению с системами HMM из-за ограниченного контекстного моделирования. Однако прорыв произошел примерно в 2000-х годах, когда стали доступны большие данные и большие вычислительные мощности. Это позволяет использовать больше слоев и более тонкие цели сетей. В эксперименте Google и IBM в 2012 году комбинация HMM и DNN показала значительное снижение частоты ошибок в словах (WER) в среднем с 15 до 7 процентов (Hinton et al., 2012). По сравнению с обычными моделями преимуществом DNN является ее меньшая занимаемая площадь и способность к различению, которая может изучать образцы речи от примитивного до высокого уровня.

Распознавание речи в изучении языка

В изучении языков технологии распознавания речи имеют долгую историю. Однако первые попытки создания голосовых интерактивных продуктов не оправдали ожиданий из-за их неточности (Carrier, 2017). Недавние достижения, такие как HMM и DNN, вместе с расширением мобильного доступа расширили возможности его применения в различных задачах, от оценки речи учащихся до автоматического перевода. Использование ASR в произношении доказало свою эффективность (Murad et al., 2018). Основной проблемой ASR при изучении второго языка (L2) является неточность распознавания для не носителей языка и ненадежная оценка.

В популярные приложения для общего изучения языка, такие как Duolingo и Rosetta Stone, встроено распознавание речи. Однако они не обучаются специально для обучения произношению и, следовательно, менее точны. Например, пользователи Duolingo сослались на то, что приложение неправильно отметило их произношение как удовлетворительное (Ulrike Rettig, 2018). В категории обучения произношению доступно несколько приложений. Например, Say It — удобное приложение от Оксфордского университета, помогающее пользователям улучшить четкость произношения. В Say it пользователям также выставляются баллы, однако нет определения точных проблемных зон и инструкций по улучшению.

По сравнению с этими приложениями ключевые отличия систем искусственного интеллекта ELSA заключаются в следующем: 1) ELSA использует живые человеческие записи носителей языка, а не созданный компьютером текст в речь (TTS); 2) ELSA обладает преимуществом больших данных, т. е. более 200 миллионов часов разговорного английского с акцентом, которое она собрала у пользователей за год, и 3) у нее есть специально обученная модель DNN, сложность которой увеличивается со временем и большими данными (Shu, 2021) . Его машинный язык специально обучен английскому языку с акцентом, что позволяет ему обнаруживать фонемы, которых нет в речи на первом языке, но которые, вероятно, произносятся говорящими на втором языке. В результате ELSA имеет 2 явных преимущества. Во-первых, это его способность точно определять различные уровни акцента и вариативность речи, то есть внешние звуки, качество микрофона и акустику помещения. Во-вторых, он может обеспечить сложную диагностику шаблонов ошибок у изучающих английский язык. ELSA утверждает, что их распознавание речи имеет 5-процентную вероятность ошибок (Mulia, 2020).

Анализ системы машинного обучения — Распознавание речи

Цель

Система машинного обучения ELSA преследует две основные цели. Во-первых, он должен обнаруживать речевые входные данные от пользователей, изучающих язык. Во-вторых, он должен диагностировать их речи, чтобы оценить их качество произношения (GOP) и предоставить отчет об ошибках произношения, а также отзывы для улучшения.

Данные

Алгоритмы ELSA обучаются с использованием 2 основных источников данных. Во-первых, это хранящийся в нем архив динамиков L2, который ELSA собирала на протяжении многих лет. Во-вторых, это образцовая библиотека речи, состоящая из записей носителей языка, которых ELSA нанимает для произнесения заданных сценариев вне студийной среды.

Процесс действия

Ниже описан процесс, как работает система машинного обучения ELSA:

Входная потоковая передача: пользователям предлагается записать свое произношение данного сценария. После того, как они закончат, они могут нажать «Стоп», чтобы остановить запись, или система автоматически остановится через 1–2 секунды. Запись пользователя передается на сервер ELSA для обработки в режиме реального времени.
Извлечение характеристик: акустические характеристики извлекаются из записи с использованием кепстральных коэффициентов Mel-частоты (MFCC).
Обработка: система ASR переводит акустические паттерны в последовательность слов.
Оценка:

Глобальная оценка: система сравнивает образцы распознанного высказывания с эталоном модели от носителей языка. Процент оценки из 100 показывает, насколько точно произношение пользователей работает по сравнению с записями L1.
Обнаружение ошибок: система выявляет различия в речевых образцах и определяет, где допущены ошибки.
Диагностика ошибок: система определяет тип допущенных ошибок. Он использует свои большие данные шаблонов ошибок, чтобы определить, распознает ли он эту конкретную ошибку. Если это так, ELSA сопоставит его с предложением из своего архива, чтобы исправить этот образец ошибки. По словам Ксавьера, именно здесь ELSA стала лучше со временем и данными и отличает ее от других приложений.
Постобработка результатов: система представляет общую оценку и подробный отчет о произношении пользователя на основе 5 критериев. Он также выявляет ошибки и дает рекомендации пользователям, когда это возможно.

Шаблон

Система распознавания речи — это «по сути многомерная система распознавания образов» (Liu, 2020). В ELSA система анализирует образцы речевых признаков, которые были извлечены до уровня фонемы. Он сравнивает входные данные пользователей со своими данными, чтобы рассчитать процент соответствия и обнаружить несоответствия.

Итак, как ELSA ML & Speech Recognition справедливо относится к изучению языка?

Преимущества

Автоматическая, легкодоступная оценка

Практика и обратная связь имеют решающее значение в изучении языка, однако оценка и индивидуальная обратная связь — одна из самых трудоемких задач для учителей (Carrier, 2017). ИИ ELSA может мгновенно дать индивидуальную обратную связь и доступен 24/7. Это помогает ускорить цикл обратной связи учащегося, позволяя ему практиковаться чаще и быстрее учиться. Это также расширяет доступ к индивидуальному обучению речи и обеспечивает доступность по запросу. Это выгодно для студентов, которые в противном случае не имеют доступа к личным преподавателям языка из-за финансовых или географических барьеров. Кроме того, автоматическая оценка может смягчить субъективные факторы, такие как человеческая предвзятость и дефицит внимания. Для учителей приложение служит инструментом, позволяющим ускорить рутинные задачи по подсчету баллов и высвободить их время, чтобы сосредоточиться на более сложных задачах. Хотя использование автоматизированной оценки в тестах с высокими ставками вызывает споры, она выгодна с точки зрения эффективности и удобства использования в повседневной практике.

Подробный диагностический отзыв

Своевременная и надежная обратная связь имеет решающее значение в обучении разговорной речи, потому что изучающие язык часто не осознают различий между своими высказываниями и целями вывода. Исследования показывают, что немедленная индивидуальная обратная связь с использованием ASR показывает улучшение произношения учащихся (Cucchiarini et al., 2009). Как упоминалось выше, проблемой для обратной связи, генерируемой ASR, до ELSA была высокая частота ошибок и отсутствие подробной диагностики. С помощью передовых алгоритмов и больших данных ELSA может выявлять ошибки и диагностировать их типы. Это дает пользователям больше шансов на улучшение, поскольку они могут делать осознанные повторные попытки.

Повсеместное обучение

«Повсеместное обучение» относится к возможности обучения «экспромтом» в любом месте, в любое время, в неформальной обстановке. Исследования показали, что эта установка способствует улучшению разговорной речи (Rogerson-Revell, 2021). В прошлом это часто означало обучение с носителем языка или переезд в страну, где говорят на изучаемом языке. ELSA как мобильное приложение является средством повсеместного обучения, благодаря которому изучающие языки могут погрузиться в изучаемые языки и улучшить свое произношение за пределами классной комнаты.

Проблемы и риски

Непрозрачность алгоритма оценки

Основной архитектурой ELSA является собственный алгоритм машинного обучения. Он не предоставляет никаких подробностей о его бенчмаркинге или пилотировании. Таким образом, трудно определить, насколько точен его алгоритм оценки произношения. В последнее время появились аргументы в пользу того, что приложение «отдает предпочтение количеству, а не качеству» и не может распознать неправильное произношение в надсегментных функциях (Becker & Idée, 2019).

Возможный конфликт с ролью учителей

ELSA ясно дает понять, что она призвана дополнять роль учителей, а не заменять их. Однако учащиеся, использующие ELSA, могут быть ошеломлены или сбиты с толку, когда получают отзывы от приложения и учителей по отдельности. Следующим шагом вперед является помощь учителям в развитии необходимой цифровой грамотности для обновления педагогической основы и материалов и эффективной интеграции приложений машинного обучения, таких как ELSA, в обучение.

Использование американского варианта английского языка

Критерием оценки ELSA является американский английский. Компания заявила, что выбрала американский английский из-за его относительной простоты и популярности. Однако такой ориентированный на США подход может отпугнуть пользователей, которые хотят выучить другие английские акценты, или тех, кто считает американский английский особенно сложным из-за своего родного языка. Кроме того, английский язык становится глобализированным. Лишение учащихся других акцентов может повлиять на их способность понимать и использовать английский язык в практических контекстах, где существует широкий спектр вариантов акцента.

Распознавание акцента

Акцентная дискриминация относится к предубеждениям против определенных акцентов. В то время как английский язык становится глобальным, исследования показали, что люди предпочитают и оценивают одни акценты выше, чем другие. Это относится как к носителям, так и к неносителям языка в разных странах (Whitworth, 2021). Например, носители английского языка в Нигерии считались менее желанными, чем носители американского языка. Социологи также отмечают, что предвзятость акцента переплетается с предвзятостью по признаку расы, пола и класса (Cantone et al., 2019). Даже среди коренных американцев, говорящих на английском языке, люди с чернокожим американским акцентом оцениваются более негативно, чем их белые коллеги (Cantone et al., 2019). Это может иметь серьезные последствия, т. е. скрытое лишение богатства, работы и жилья. Например, сотрудники с акцентом воспринимаются как менее компетентные или даже запуганные (Ro, 2021).

ELSA использует стандартный американский английский (SAE) в качестве образцового акцента, на котором в основном говорят белые американцы из среднего класса (Билли Морган, 2019). Хотя ELSA непреднамеренно подчеркивает предпочтение SAE как «американского английского без акцента» по сравнению с другими акцентами. Повторное использование может привести к тому, что пользователь отдаст предпочтение американскому английскому по сравнению с другими акцентами, усвоит предвзятое отношение к акценту или даже разовьет лингвистическую неуверенность, если ему не удастся получить отличные оценки. Кроме того, ELSA выходит на рынок B2B (бизнес для бизнеса) и продает свой API для таких компаний, как колл-центры и школы. Будущие приложения в ситуациях с высокими ставками, например. при приеме на работу потенциально может привести к дискриминации неносителей языка и определенных групп акцентов.

Заключение

ELSA и распознавание речи открыли новые возможности в обучении произношению. ИИ формирует новую реальность изучения языков, доступную, эффективную и повсеместную. С другой стороны, машинное обучение так же хорошо, как и люди, стоящие за ним. «Закодированное предубеждение» скрыто внутри систем глубоких нейронных сетей и имеет далеко идущие социальные последствия, выходящие за рамки их предполагаемых целей. По мере того, как распознавание речи становится все более интегрированным в различные аспекты языкового обучения и тестирования, требуются добросовестные приложения, чтобы гарантировать, что алгоритм работает на благо людей независимо от их расовой и социально-экономической принадлежности.

Библиография

Беккер, Кимберли и Эдалатишамс, Иде. (2019). ELSA Speak — уменьшение акцента (обзор).

Билли Морган. (2019, 6 ноября). Как ваша речь может повлиять на вашу зарплату | Новости Чикагского университета. https://news.uchicago.edu/story/how-your-speech-could-impact-your-salary

Кантоне, Дж. А., Мартинес, Л. Н., Уиллис-Эскеда, К., и Миллер, Т. (2019). Звучание виновным: как предвзятость акцента влияет на суждения присяжных о виновности. Journal of Ethnicity in Criminal Justice, 17(3), 228–253. https://doi.org/10.1080/15377938.2019.1623963

Кэрриер, М. (2017). Автоматическое распознавание речи в изучении языков: потенциальные модели, преимущества и влияние. Обучение языку и культуре, 1(1), 46–61. https://doi.org/10.29366/2017tlc.1.1.3

Куккиарини, К., Нери, А., и Стрик, Х. (2009). Устное обучение голландскому языку L2: вклад корректирующей обратной связи на основе ASR. Речевое общение, 51(10), 853–863. https://doi.org/10.1016/j.specom.2009.03.003

Дэвис, А. (2022, 25 января). 10 лучших приложений с искусственным интеллектом 2022 года. DevTeam.Space. https://www.devteam.space/blog/10-best-ai-apps/

Хинтон Г., Денг Л., Ю Д., Даль Г., Мохамед А., Джейтли Н., Ванхук В., Нгуен П., Сайнат Т. и Кингсбери Б. (2012). Глубокие нейронные сети для акустического моделирования при распознавании речи. 27.

Лю, Х. (2020). Глава 1 Введение. В книге Х. Лю (ред.), Роботизированные системы для железнодорожных перевозок (стр. 1–36). Эльзевир. https://doi.org/10.1016/B978-0-12-822968-2.00001-2

Мулия, К. (2020, 22 января). Языковое приложение ELSA на базе искусственного интеллекта позволяет уверенно говорить по-английски. Техника в Азии. https://www.techinasia.com/elsa-speaking-english

Мурад Д., Ван Р., Тернбулл Д. и Ван Ю. (2018). SLIONS: караоке-приложение для улучшения изучения иностранных языков. Материалы 26-й Международной конференции ACM по мультимедиа, 1679–1687 гг. https://doi.org/10.1145/3240508.3240691

Нгуен, Д. (nd). Об ELSA — речевой помощник на английском языке. Говорит ELSA. Получено 27 апреля 2022 г. с https://vn.elsaspeak.com/en/about-us/

Ро, К. (2021, 3 июня). Всепроникающая проблема лингвистического расизма. https://www.bbc.com/worklife/article/20210528-the-pervasive-problem-of-linguistic-racism

Роджерсон-Ревелл, PM (2021). Обучение произношению с помощью компьютера (CAPT): текущие проблемы и направления на будущее. Журнал RELC, 52(1), 189–205. https://doi.org/10.1177/0033688220977406

Шу, К. (2021, 1 февраля). Приложение для изучения английского языка ELSA получило 15 миллионов долларов США за международный рост и платформу B2B. TechCrunch. https://social.techcrunch.com/2021/01/31/english-learning-app-elsa-lands-15-million-series-b-for-international-growth-and-its-b2b-platform/

Ульрике Реттиг, PR (11 декабря 2018 г.). Лучше, чем распознавание речи для изучения языка? https://www.gamesforlanguage.com/blog/post/2018-12-better-than-speech-recognition-for-language-learning

Уитворт, Н. (3 мая 2021 г.). Акцент, идентичность и предрассудки | Блоги | Университет Лидса Беккета. https://www.leedsbeckett.ac.uk/blogs/carnegie-education/2021/05/accent-identity-and-prejudice/

Инь С., Лю С., Чжан З., Линь Ю., Ван Д., Техедор Дж., Чжэн Т. Ф. и Ли Ю. (2015). Шумное обучение глубоких нейронных сетей распознаванию речи. Журнал EURASIP по обработке аудио, речи и музыки, 2015(1), 2. https://doi.org/10.1186/s13636-014-0047-0