Речь — это одна из вещей, которые мы считаем глубоко человеческими: большая часть нашего взаимодействия основана на ней. Поэтому неудивительно, что мы, люди, пытаемся научить других говорить — будь то животные или машины.

Я взял интервью у Питера Смита, докторанта Центра передового опыта в области вычислительного вывода Университета Аалто, чтобы узнать, что происходит в области распознавания речи.

«Речь — более естественный интерфейс, чем набор текста», — резюмирует Питер. У него большой опыт в области машинного обучения, и вот уже несколько лет распознавание речи является приложением машинного обучения, на котором он сосредоточился.

И у него есть твердая точка зрения. Независимо от того, как мы используем наши пальцы в наши дни, они не эволюционировали для набора текста. И чтобы иметь возможность лучше общаться с нами, компьютеры должны научиться понимать речь.

Однако любой, кто пытался попросить Siri позвонить другу, сомневается в состоянии распознавания речи. Тем более, что эта область не совсем новая: уже в 60-х годах машины умели интерпретировать цифры и другие простые слова.

В будущем все методы распознавания речи станут более независимыми от языка.

Машинное обучение улучшает распознавание речи

В течение последнего десятилетия мы стали свидетелями поворотного момента. В то время как до создания отдельных систем распознавания речи для моделирования и понимания языков, быстрое развитие глубокого обучения полностью изменило правила игры. Распознавание речи в настоящее время действительно является примером применения глубоких нейронных сетей.

Разработка этих новых технологий очень зависит от данных, и это привело к ситуации, когда отрасли и рынки фактически начинают проводить исследования: у них есть доступ к большему количеству и более качественным данным.

И что еще более интересно, это означает, что вам не нужно знать язык, чтобы анализировать его. Можно довольно быстро масштабировать данные для распознавания другого языка. Это то, что человек не может сделать, но технология может.

Питер, например, является носителем нидерландского языка и свободно говорит по-английски. Но он проанализировал более 10 языков, в том числе финский и северносаамский.

«В будущем все методы распознавания речи станут более независимыми от языка. Через пять лет вся область распознавания речи будет выглядеть совершенно иначе», — считает Питер.

Люди склонны переоценивать то, что на самом деле понимают машины.

Понимание компьютеров

вот несколько вещей, которые нам еще нужно прояснить, чтобы эти отношения между компьютером и человеком заработали.

Во-первых, люди склонны переоценивать то, что на самом деле понимают машины.

Речь является настолько естественным интерфейсом для нас, людей, что мы предполагаем, что она означает понимание понятий и идей в речи. Но распознавание речи отличается от обработки естественного языка: машины способны распознавать слова, но не значения, стоящие за ними.

Во-вторых, компьютеры очень технически подкованы.

Люди часто считают, что, например, фоновые шумы, качество звука или особые акценты имеют решающее значение для распознавания речи. На самом деле это совсем не проблема: эта сторона технологии очень хороша.

В-третьих, люди очень зависят от контекста.

«В природе людей приспосабливаться к различным ситуациям. К сожалению, мы не можем сказать то же самое о компьютерах», — объясняет Питер. «Контекст — это все. Один и тот же звук «тоже» может означать очень разные вещи в разных контекстах: иди, два сета, мне тоже. Чтобы иметь возможность ввести правильное слово, компьютер должен проанализировать контекст».

Это верно не только для отдельных слов, фокус помогает и в других отношениях. Как упоминалось ранее, качественные данные очень важны для распознавания речи. Если данные относятся к определенной области, тем лучше будет конечный результат.

«Это часто рассматривается как недостаток, но у людей тоже есть разные сферы деятельности. Не все могут понять юридический текст или медицинские диктанты».

Медицинский диктант и транскрипция — это область, на которой Питер сосредоточится в следующий раз. Он присоединился к команде Inscripta, стартапа, целью которого является перестать тратить время людей на медицинский диктант. Недавнее исследование показывает, что в Финляндии медицинские работники (включая не только врачей, но также медсестер и других специалистов) тратят более 50 % своего рабочего времени на выполнение обязательных служебных задач, из которых больше всего времени занимает ввод записей пациентов. далеко. То же самое касается других подобных систем здравоохранения в Европе и Северной Америке.

Иными словами, из примерно 20 000 врачей Финляндии только половина может сосредоточиться на работе с пациентами, а другая половина тратит свой опыт на рутинную работу в бэк-офисе».

Расшифровка играет очень важную роль в здравоохранении по соображениям безопасности пациентов и по юридическим причинам.

Медицина как область применения

Медицинский диктант — очень хорошее поле для применения распознавания речи. Довольно легко собрать набор данных, включающий сотни часов речи и текстов, которые охватывают большинство медицинских терминов, и этого достаточно, чтобы запустить процесс глубокого обучения.

Расшифровка также играет очень важную роль в здравоохранении по соображениям безопасности пациентов и по юридическим причинам. Предстоит много расшифровки, а использование распознавания речи может высвободить время медицинского персонала для выполнения своей реальной работы и встречи с большим количеством пациентов.

Как и во многих других приложениях машинного обучения, люди по-прежнему будут необходимы для обзора работы, выполняемой компьютерами. Но это намного эффективнее, чем то, что мы имеем сейчас.

И, конечно же, не следует забывать: «Люди тоже ошибаются. Не все слова, расшифрованные людьми, полностью верны, и алгоритмам не потребуется много времени, чтобы стать такими же или даже лучше в расшифровке в определенных областях».