В этом блоге я расскажу о глубоком обучении и о том, как оно используется в SoapBox Labs для улучшения распознавания речи у детей.

Что такое глубокое обучение?

Чтобы понять глубокое обучение, нам нужно базовое понимание машинного обучения.

Машинное обучение — это группа алгоритмов, которые фокусируются на изучении данных для прогнозирования и принятия решений без какого-либо явного программирования. Обычно это включает в себя обучение модели на огромных объемах данных для изучения закономерностей, чтобы затем можно было делать прогнозы и принимать решения на основе новых данных. Например, умные колонки, которые мы используем в повседневной жизни, основаны на алгоритмах машинного обучения.

Глубокое обучение — это форма машинного обучения, основанная на нейронных сетях, наборе алгоритмов, разработанных для имитации работы человеческого мозга. Любая сеть с более чем тремя слоями считается глубокой нейронной сетью, и входные данные обрабатываются через эти несколько слоев, чтобы предсказать желаемый результат. Глубокие нейронные сети требуют огромных объемов данных и широко используются для распознавания речи и изображений. В SoapBox наши модели обучаются на тысячах часов аудиоданных и регулярно оцениваются на внутренних наборах данных.

Почему глубокое обучение важно для распознавания речи детей?

Целью распознавания речи является преобразование речи пользователей в текст. Учитывая различия в аудиоданных (например, произношение, акцент и шум), алгоритмы машинного обучения используются для обеспечения точности. Из-за своей превосходной производительности, особенно для понимания вариативной речи детей, глубокое обучение лежит в основе голосового движка SoapBox и таких решений, как оценка беглости речи. Мы также используем глубокое обучение для обнаружения пробуждающих слов, обнаружения голосовой активности (VAD) и сквозного распознавания речи для распознавания речи на устройстве.