Здравоохранение, возможно, является самой важной отраслью с точки зрения создаваемой стоимости, и модели машинного обучения с каждым днем становятся все более важной ее частью, поскольку приложения ИИ вселяют надежду в людей, страдающих физическими недостатками. Машинное обучение в здравоохранении помогает анализировать огромные наборы данных и предлагать результаты, оценивать риски и имеет множество других применений, включая диагностику заболеваний, открытие лекарств, клинические испытания и исследования. В этой статье я хотел бы особо остановиться на том, как машинное обучение используется для диагностики и лечения нарушений речи.
Что такое нарушение речи?
Нарушение речи — это состояние, при котором нарушается способность воспроизводить звуки речи, необходимые для общения. Несколько причин этого несовершенства включают болезнь БАС, инсульты, болезнь Паркинсона, церебральный паралич и травмы головного мозга. Есть миллионы людей, которые страдают от одного из этих состояний, и общение F2F, не отставая от повседневной жизни и получая удовольствие даже от самых маленьких случаев, таких как шутка, может быть сложной задачей. Технологические и медицинские компании предпринимают множество инициатив, включая Google AI (проект Euphonia, исследовательский проект Google), чтобы обеспечить правильную работу голосовых технологий с людьми с нарушениями речи.
Как работает распознавание речи?
Таким образом, распознавание речи работает в 4 этапа:
1. Звук человеческого голоса преобразуется в волновую форму
2. Волновые формы сопоставляются с транскрипцией или метками для каждого слова.
3. Обученная модель машинного обучения преобразует звуки (входные данные) в слова (выходные данные).
4. Алгоритм предсказывает каждое слово в предложении (например, см. или море)
Хотя в теории это звучит хорошо, основная проблема, с которой сталкиваются исследовательские группы, заключается в сборе достаточного количества голосовых записей людей с нарушениями речи, чтобы обучить модели распознавания речи, чтобы они лучше понимали людей. И именно здесь на сцену вышел знаменитый ранее Ice Bucket Challenge.
Вызов ледяного ведра
Ice Bucket Challenge — это мероприятие, в рамках которого люди выливают себе на голову ведро ледяной воды, чтобы повысить осведомленность о болезни БАС и привлечь пожертвования на исследования. За 8 недель 2004 года, когда задача стала всемирно известной, на исследования было собрано около 200 миллионов долларов. Когда кампания стала вирусной, ALS TDI (Институт развития терапии) смог использовать пожертвования, чтобы связаться с пациентами с БАС и получить их голосовые данные. Имея возможность собрать огромный набор данных, ALS TDI привлекла к сотрудничеству Google.
Вернуть людям их голос
Поскольку образцы голоса собираются для обучения моделей распознавания, которые прекрасно понимают, что говорят люди с нетипичной речью, следующим шагом будет в основном обратный процесс с использованием технологий преобразования текста в речь, вспомогательных технологий, которые читают цифровой текст вслух. Распознавание речи, как упоминалось выше, работает путем преобразования голоса в текст в качестве вывода. В качестве обратного процесса исследователи, такие как команда Google DeepMind, работают над тем, чтобы взять текст и озвучить его, используя исходный голос этого человека. Команда работает над разработкой моделей машинного обучения, которым требуется меньше данных для обучения, поскольку у большинства пациентов может не хватить времени или ресурсов для сбора своих голосов. Технология работает следующим образом:
1. Обучите модель WaveNet со многими динамиками
2. Модель воспроизводит базовую естественно звучащую речь.
3. Возьмите небольшие образцы данных и адаптируйте модель, что также называется тонкой настройкой.
На изображении выше вы можете видеть, как команда Google сидит с Тимом Шоу, бывшим игроком НФЛ, а теперь защитником болезни БАС, и его родителями. Тим записал свой голос и заполнил десятки тысяч записей, которые будут использоваться при обучении WaveNet. В конце концов, Тим смог воссоединиться со своим голосом и прочитать письмо, которое он написал самому себе в молодости, используя развивающуюся в настоящее время модель в прошлом году.
Даже эти разработки могут показаться огромными, большинство из этих проектов находятся на ранней стадии и продолжают развиваться. Исследователи предсказывают, что для того, чтобы проекты преуспели, потребуются годы. Но, как отмечает Марк Твен, «Секрет успеха в том, чтобы начать».
https://www.youtube.com/watch?v=V5aZjsWM2wo
https://sites.google.com/view/project-euphonia/learn-more?authuser=0
http://www.alsa.org/fight-als/ice-bucket-challenge.html