МОДЕЛИ ИИ И МАШИННОЕ ОБУЧЕНИЕ ДЛЯ РЕШЕНИЯ НАРУШЕНИЙ РЕЧИ

Здравоохранение, возможно, является самой важной отраслью с точки зрения создаваемой стоимости, и модели машинного обучения с каждым днем становятся все более важной ее частью, поскольку приложения ИИ вселяют надежду в людей, страдающих физическими недостатками. Машинное обучение в здравоохранении помогает анализировать огромные наборы данных и предлагать результаты, оценивать риски и имеет множество других применений, включая диагностику заболеваний, открытие лекарств, клинические испытания и исследования. В этой статье я хотел бы особо остановиться на том, как машинное обучение используется для диагностики и лечения нарушений речи.

Что такое нарушение речи?

Нарушение речи — это состояние, при котором нарушается способность воспроизводить звуки речи, необходимые для общения. Несколько причин этого несовершенства включают болезнь БАС, инсульты, болезнь Паркинсона, церебральный паралич и травмы головного мозга. Есть миллионы людей, которые страдают от одного из этих состояний, и общение F2F, не отставая от повседневной жизни и получая удовольствие даже от самых маленьких случаев, таких как шутка, может быть сложной задачей. Технологические и медицинские компании предпринимают множество инициатив, включая Google AI (проект Euphonia, исследовательский проект Google), чтобы обеспечить правильную работу голосовых технологий с людьми с нарушениями речи.

Как работает распознавание речи?

Таким образом, распознавание речи работает в 4 этапа:

1. Звук человеческого голоса преобразуется в волновую форму

2. Волновые формы сопоставляются с транскрипцией или метками для каждого слова.

3. Обученная модель машинного обучения преобразует звуки (входные данные) в слова (выходные данные).

4. Алгоритм предсказывает каждое слово в предложении (например, см. или море)

Хотя в теории это звучит хорошо, основная проблема, с которой сталкиваются исследовательские группы, заключается в сборе достаточного количества голосовых записей людей с нарушениями речи, чтобы обучить модели распознавания речи, чтобы они лучше понимали людей. И именно здесь на сцену вышел знаменитый ранее Ice Bucket Challenge.

Вызов ледяного ведра

Ice Bucket Challenge — это мероприятие, в рамках которого люди выливают себе на голову ведро ледяной воды, чтобы повысить осведомленность о болезни БАС и привлечь пожертвования на исследования. За 8 недель 2004 года, когда задача стала всемирно известной, на исследования было собрано около 200 миллионов долларов. Когда кампания стала вирусной, ALS TDI (Институт развития терапии) смог использовать пожертвования, чтобы связаться с пациентами с БАС и получить их голосовые данные. Имея возможность собрать огромный набор данных, ALS TDI привлекла к сотрудничеству Google.

Вернуть людям их голос

Поскольку образцы голоса собираются для обучения моделей распознавания, которые прекрасно понимают, что говорят люди с нетипичной речью, следующим шагом будет в основном обратный процесс с использованием технологий преобразования текста в речь, вспомогательных технологий, которые читают цифровой текст вслух. Распознавание речи, как упоминалось выше, работает путем преобразования голоса в текст в качестве вывода. В качестве обратного процесса исследователи, такие как команда Google DeepMind, работают над тем, чтобы взять текст и озвучить его, используя исходный голос этого человека. Команда работает над разработкой моделей машинного обучения, которым требуется меньше данных для обучения, поскольку у большинства пациентов может не хватить времени или ресурсов для сбора своих голосов. Технология работает следующим образом:

1. Обучите модель WaveNet со многими динамиками

2. Модель воспроизводит базовую естественно звучащую речь.

3. Возьмите небольшие образцы данных и адаптируйте модель, что также называется тонкой настройкой.

На изображении выше вы можете видеть, как команда Google сидит с Тимом Шоу, бывшим игроком НФЛ, а теперь защитником болезни БАС, и его родителями. Тим записал свой голос и заполнил десятки тысяч записей, которые будут использоваться при обучении WaveNet. В конце концов, Тим смог воссоединиться со своим голосом и прочитать письмо, которое он написал самому себе в молодости, используя развивающуюся в настоящее время модель в прошлом году.

Даже эти разработки могут показаться огромными, большинство из этих проектов находятся на ранней стадии и продолжают развиваться. Исследователи предсказывают, что для того, чтобы проекты преуспели, потребуются годы. Но, как отмечает Марк Твен, «Секрет успеха в том, чтобы начать».

https://www.youtube.com/watch?v=V5aZjsWM2wo

https://www.flatworldsolutions.com/healthcare/articles/top-10-applications-of-machine-learning-in-healthcare.php

https://sites.google.com/view/project-euphonia/learn-more?authuser=0

http://www.alsa.org/fight-als/ice-bucket-challenge.html

Использование технологии WaveNet для воссоединения пользователей с нарушениями речи с их оригинальными голосами
В этом посте представлен недавний проект, который мы реализовали вместе с Google и Тимом Шоу, участником кампании по борьбе с амиотрофией, в рамках инициативы Google Euphonia… deepmind.com

МОДЕЛИ ИИ И МАШИННОЕ ОБУЧЕНИЕ ДЛЯ РЕШЕНИЯ НАРУШЕНИЙ РЕЧИ

Вопросы по теме