Является ли распознавание речи жизнеспособной технологией для бизнеса?

Как вам идея говорить по-английски, а программное обеспечение переводит и читает его на китайском языке за считанные секунды? А как насчет идеи управлять своим умным домом с помощью голоса или мгновенно генерировать расшифровки аудиозаписей? Это и многое другое возможно уже сегодня. Что с этим можно сделать?

Это сообщение первоначально появилось здесь. Не стесняйтесь подписываться на нас в Facebook, Twitter и LinkedIn!

До того, как Microsoft раскрыла невероятный потенциал своей технологии преобразования речи в речь, которая позволяет переводить собственный разговорный английский язык в почти идеально структурированную его версию на китайском языке (видео ниже, с 7:30), технология распознавания речи не не было много на радаре среднего человека или даже предпринимателя.

Если демонстрация не убедила вас в том, что это то, что стоит изучить глубже, как насчет этого: рынок распознавания речи будет расти со среднегодовым темпом роста (CAGR) в 40 процентов, по крайней мере, до 2024 года. Это означает ( без каламбура) в шестикратное увеличение денежной стоимости — с примерно 250 миллионов долларов до чуть более 1,5 миллиарда долларов.

Мы рассмотрим несколько действительно интересных вариантов использования распознавания речи, в том числе один из них. Но сначала давайте вернемся к основам и определим, что такое распознавание речи.

Что такое и чем не является распознавание речи?

Во-первых, распознавание речи — это совершенно иная концепция, чем распознавание голоса. Первый относится к способности машины преобразовывать речь в текст (а затем, при желании, дополнительно обрабатывать ее в другую устную форму). С другой стороны, распознавание голоса основано на способности распознавать голосовой отпечаток человека. По сравнению со списком голосовых отпечатков, доступных ей, машина способна проверить личность человека, находящегося под рукой. Хотя это, очевидно, очень увлекательно и полно интересных вариантов использования, мы собираемся сосредоточиться на распознавании речи…

… скромные начинания которых восходят к началу 50-х годов и исследования, проводимые в Bell Laboratories, научно-исследовательской компании, в настоящее время принадлежащей Nokia. Исследования Харви Флетчера и неожиданное сотрудничество с популярным дирижером Леопольдом Стоковски во многом способствовали популяризации стереофонического звука. Но даже несколько десятилетий спустя, в 80-е, компьютеры все еще с трудом могли правильно понимать произносимое слово, за исключением очень ограниченного набора жестко запрограммированных фраз.

Только в 2006 году исследования по распознаванию речи получили серьезный импульс. Профессор Джеффри Хинтон применил новый подход, заменив широко используемые статистические смешанные модели Гаусса искусственными «мозгоподобными» глубокими нейронными сетями (DNN) в качестве основы для модели распознавания речи. Ученые из Microsoft Research Redmon годами продолжали обучать и улучшать модель, что привело к очень интересным открытиям. Хотя подход DNN не устранил ошибки машинного распознавания речи, характер этих ошибок изменился по сравнению с исходным статистическим подходом. В отличие от предыдущих, ошибки в большинстве случаев не делали переводы бесполезными или непонятными. Усовершенствованная технология преобразования речи в текст вдохновила сотрудников Microsoft на дальнейшие эксперименты с преобразованием речи в речь. И это в конечном итоге привело к тому, что вы могли слышать на видео выше.

Распознавание речи — что с этим делать?

Допустим, у вас есть аудиозапись, которую вам очень нужно расшифровать как можно скорее. Сколько времени вам потребуется, чтобы сделать это с 5-минутной записью? Как насчет 15 минут или 2 часов? Это утомительная работа. Особенно, когда за вас это может сделать правильное программное обеспечение. Speechmatics — стартап, предлагающий облачный сервис распознавания речи. С минимальными затратами на настройку и простой регистрацией в браузере вы получаете доступ к инструменту, основанному на технологиях, которые совсем недавно стали доступны даже самым крупным организациям.

Распознавание речи применяется во многих различных областях. В сфере образования он помогает детям и людям с ограниченными возможностями писать. Некоторые исследования показывают, что предоставление детям с ограниченными возможностями обучения, в том числе с дислексией, возможности использовать программное обеспечение для преобразования речи в текст для написания своих заданий значительно повышает качество их работы и их способность выражать мысли, поскольку им временно не нужно беспокоиться об орфографических ошибках. . В индустрии видеоигр разработчики уже довольно давно экспериментируют с распознаванием речи. Видеоигра 2004 года Lifeline во многом обязана своей популярностью голосовому интерфейсу, в котором для взаимодействия с персонажами на экране используются простые команды. Другим замечательным примером является видеоигра 2008 года Tom Clancy’s EndWar, в которой игрок может отдавать голосовые команды сослуживцам. Хотя не все полностью управляются голосом, создатели Ubisoft также заявили, что им можно управлять только с помощью голосовых команд.

Домашняя автоматизация с улучшенным голосовым управлением

Домашняя автоматизация — еще одна область, где распознавание речи можно использовать очень эффективно. Но это гораздо ближе к нашему сердцу, так как Цифровая система управления домом Sensinum, разработанная для кластера устойчивой инфраструктуры, отлично использует ее для предоставления дополнительных функций людям с ограниченными возможностями. По своей сути система представляет собой веб-приложение на базе KNX с интуитивно понятным интерфейсом. Идея заключалась в том, чтобы разработать систему, уникальную своей способностью легко собирать данные, которые можно было бы в дальнейшем использовать для ее улучшения. Кроме того, он оснащен стандартными функциями, такими как управление источниками освещения, получение данных с датчиков температуры ветра и движения, управление системами отопления или кондиционирования воздуха. Но он выделяется тем, что предоставляет такую ​​же возможность манипулирования людям с ограниченными возможностями с помощью голосового управления. Он использует простой механизм управления паттернами — пользователь озвучивает команду, и эта команда сравнивается с ранее записанными паттернами. Эта простая технология может изменить жизнь многих людей и может быть легко объединена с существующими системами домашней автоматизации.

Распознавание речи — лишь один из многих примеров того, как такое простое решение для машинного обучения, как распознавание образов, можно использовать с большим успехом. Он широко используется для классификации документов, например, в почтовых клиентах, или для предложения контента на основе видео/статей, которые вы уже смотрели/просматривали. Он также является основой для более совершенных систем, таких как платформа машинного обучения больших данных Google TensorFlow (улучшенная и выпущенная в открытый исходный код как DistBelief), которая может использоваться для обучения машин анализу содержимого изображений и текста. В Google он используется в таких приложениях, как Google Фото и Google Поиск, а также в службе Street View, в которой человеческое лицо распознается на основе набора шаблонов, чтобы компьютер мог размыть его, когда человек попадает в поле зрения автомобиля Street View.

Поскольку Sensinum часто используется для разработки веб-приложений, требующих точной и расширенной обработки данных, нам часто приходится работать с алгоритмами, основанными на распознавании образов. Будь то распознавание речи или любая другая область, мы обогащаем наши веб-приложения такими возможностями. У вас есть идея для веб-приложения, которое можно было бы использовать? Дайте нам знать — мы будем рады поговорить с вами об этом.