Фоновые шумы повсюду, и они раздражают. Довольно часто важным деловым или личным звонкам мешает фоновый шум в вашем окружении. Эту проблему необходимо решить, и быстро, поскольку модель удаленной работы и гибридной работы никуда не денется.

Такие технологии, как WebRTC, облачные вычисления. и т. д., облегчили предприятиям эту модель удаленной работы. Качество, скорость и простота общения сегодня важнее, чем когда-либо прежде. Таким образом, поставщики средств связи вкладывают средства в ML/AI при обработке мультимедиа.

Применение эвристики к алгоритмам обработки мультимедиа потеряло свою привлекательность. Сочетание движков и эвристик проложит путь в будущее. Технический прогресс сделал это возможным в значительной степени. Продолжающаяся пандемия во всем мире только создала актуальность таких инноваций.

ML в обработке мультимедиа — сложная задача

Машинное обучение само по себе является сложной задачей, как и обработка мультимедиа. Это две отдельные дисциплины, которые должны объединиться для решения этой огромной проблемы. Вот контрольный список, который вам нужен -

  • Поиск инженеров по машинному обучению.
  • Инженеры должны иметь опыт в обработке мультимедиа.
  • Создание или получение доступа к подходящему набору данных для использования.
  • Наличие доступа к достаточному количеству данных.
  • Решаете, на чем сосредоточить свои усилия? Аудио или видео? Или сеть?
  • Что выбрать: серверную реализацию или клиентскую?
  • Оптимизация модели.

Большая часть планирования, управления и исследований уходит на объединение машинного обучения с обработкой мультимедиа. Гораздо больше, чем другие функции, которые вы запланировали для своего приложения.

***

Машинное обучение находит применение в коммуникациях в двух основных областях. Обработка видео фона (статья о том же в будущем) и шумоподавление. Над обеими областями всегда можно было поработать. Но они оказались в центре внимания во время пандемии.

Люди начали работать из необычных мест — кафе, парков, своих гостиных или «рабочих мест».

Подавление шума с помощью машинного обучения гарантирует, что никто из участников разговора не услышит жужжание газонокосилки в вашем районе.

Эта потребность привела к нескольким быстрым достижениям в области WebRTC. Делимся тремя историями:

Google Meet

Google Meet создал свою технологию шумоподавления.

Вот Серж Лашапель, директор по управлению продуктами G Suite, дает небольшое интервью для VentureBeat о подавлении шума в Google Meet.

Смотри короткое интервью здесь.

Google внедрил эту технологию в облаке и использует «защищенные» процессоры Tensorflow для специализированного чипа в облаке Google для машинного обучения. Эта функция не является обязательной. Он отменяет произвольные шумы и со временем будет дорабатываться и корректироваться Google.

Google вносит свой вклад в сообщество. Они отличаются тем, что обеспечивают реализацию своих возможностей машинного обучения за пределами библиотеки WebRTC с открытым исходным кодом.

Раздор!

В партнерстве с Krisp Discord «купила» свой путь к подавлению шума. Krisp — один из немногих поставщиков, занимающихся машинным обучением при обработке мультимедиа. Они делают это как продукт/услугу. Они успешно этим занимаются уже пару лет.

Функция подавления шума впервые появилась в бета-версии настольного приложения Discord. Позже Discord добавил шумоподавление в iOS и Android с помощью Krisp.

Короткое видео-объяснение того же самого.

Cisco!

Cisco приобрела BabbleLabs, чтобы получить собственную технологию шумоподавления. Он выбрал традиционный подход снижения риска за счет приобретения технологии. BabbleLabs похож на Kris и предлагает алгоритмы на основе машинного обучения для обработки голоса. Cisco интегрировала эту технологию в WebEx.

Что впереди?

Все больше и больше поставщиков примут к сведению этот технологический прогресс и примут меры по интеграции технологии шумоподавления в свои приложения. Это произойдет либо за счет собственной разработки, либо за счет лицензирования третьей стороны.

Сейчас каждому нужно шумоподавление, и это только начало. Машинное обучение находит место в общении разными способами. 3 основные области, в которых растут инвестиции. Обработка голоса (шумоподавление, отмена), обработка видео (сжатие, сверхвысокое разрешение и т. д.) и размытие/замена фона.

Планируете ли вы использовать ML или AI в WebRTC?

За машинным обучением и искусственным интеллектом будущее! Как в коммуникативном пространстве, так и в других местах. Это также касается обработки медиа. В будущем это станет обычным требованием.

Планируете ли вы ML/AI? Вы не уверены, стоит ли полагаться на третьи стороны или на собственные технологии? Если вам нужна помощь в ответах на эти вопросы, RTCWeb.in здесь для вас. Свяжитесь с нами сейчас для всех ваших потребностей WebRTC.

Первоначально опубликовано на https://rtcweb.in 9 сентября 2021 г.