Направлено на помощь исследователям и академическим кругам в развитии распознавания речи на индийском языке.

Microsoft India объявила о выпуске Корпуса речи Microsoft на индийском языке, предлагающего обучение речи и тестовые данные для телугу, тамильского и Гуджарати. Это самый крупный общедоступный набор речевых данных на индийском языке, который включает аудио и соответствующие транскрипции, - говорится в заявлении Microsoft.

Он направлен на то, чтобы помочь исследователям и академическим кругам создать распознавание речи на индийском языке для всех приложений, в которых используется речь. Этот корпус речевых сообщений на индийском языке предоставляется в рамках инициативы Microsoft Research Open Data, которая представляет собой набор бесплатных наборов данных от Microsoft Research для продвижения современных исследований в таких областях, как обработка естественного языка, компьютерное зрение и предметные науки.

Восьмое приложение к Конституции Индии содержит список из 22 запланированных языков. В крупнейшей демократии мира, где проживает 1,3 миллиарда человек в 29 штатах, используется около 780 различных языков и 86 различных алфавитов.

Сегодня существует нехватка адекватных цифровых данных для текстовых, речевых и лингвистических ресурсов, которые необходимы при построении больших моделей машинного обучения для многих народных языков по всему миру. Более того, различия в произношении, акценте, дикции и сленге в разных регионах Индии очень тонкие. В результате этих сложностей разработка точных цифровых инструментов на индийских языках идет медленно. «Microsoft работает над устранением этой нехватки данных и катализатором разработки моделей на основе машинного обучения, которые могут помочь в создании систем для языков с ограниченными ресурсами, тем самым обеспечивая экосистему исследователей, академических кругов и технических компаний, работающих над языковыми моделями Индии. и для ускорения удовлетворения потребностей индийских пользователей. Выпуск Microsoft Indian Language Speech Corpus является частью этих усилий », - говорится в заявлении компании.

«Мы считаем, что растущая цифровая грамотность Индии должна поддерживаться многоязычным цифровым миром. Корпус Microsoft Indian Language Speech Corpus - это продолжение наших постоянных усилий по сокращению языковых барьеров и расширению возможностей индийцев использовать весь потенциал Интернета. Используя наш технологический опыт, мы хотим ускорить внедрение инноваций в голосовых вычислениях в Индии, поддерживая исследователей и академические круги », - сказал Сундар Сринивасан, генеральный директор отдела искусственного интеллекта и исследований Microsoft India.

Корпус Microsoft Indian Language Speech Corpus был протестирован на Interspeech 2018, крупнейшей в мире конференции по науке и технологиям обработки речи. В конкурсе на распознавание речи с низким уровнем ресурсов участники использовали данные из корпуса речевых инструментов Microsoft на индийском языке для создания систем автоматического распознавания речи (ASR). Они смогли создать высококачественные модели распознавания речи, используя эти данные, тем самым подтвердив эффективность Корпуса.

Microsoft работает с индийскими языками более двух десятилетий с момента запуска Project Bhasha в 1998 году, что позволяет пользователям легко и быстро вводить локализованный текст с помощью инструмента ввода на индийском языке. С помощью искусственного интеллекта и глубоких нейронных сетей Microsoft работает над улучшением языкового перевода в реальном времени для хинди, бенгали, тамильского и теперь расширяет его до языкового перевода в реальном времени для телугу. Microsoft также недавно объявила о поддержке адресов электронной почты на нескольких индийских языках в большинстве своих почтовых приложений и сервисов. Кроме того, в рамках последнего обновления Windows Microsoft добавила виртуальную клавиатуру Tamil 99 в Windows 10. Посредством своей глобальной Программы местного языка (LLP) Microsoft предоставляет людям доступ к технологиям на их родном языке. Сюда входят языковые пакеты интерфейса для индийских языков, таких как хинди, каннада, бенгали, малаялам и других.