Как мы можем сказать, многие приложения для камеры имеют функцию фильтра, которая позволяет настроить цвета и стиль изображения или видеозаписи в зависимости от темы, которая вам нравится. Точно так же можем ли мы ожидать, что наши голосовые сообщения или живые звонки будут иметь некоторые изменения в зависимости от акцента или диалекта, на котором мы хотим говорить? Я могу представить, что у этого исследования есть два направления использования: во-первых, мы можем отфильтровать акцент, который влияет на наше общение, чтобы улучшить качество разговора; во-вторых, мы можем добавить любой оттенок акцента к нашему видео или нашему звонку, точно так же, как мы добавляем фильтр к нашим фотографиям. Это намного круче, чем фильтр изображений, и у него есть более практичные сценарии реализации, например, помощь людям в понимании речи друг друга и предотвращение недопонимания.

Обработка естественного языка (NLP) имеет много общего с обработкой изображений. Эти две исследовательские области должны маркировать данные и использовать аналогичные алгоритмы машинного обучения, чтобы оправдать ожидания, включая кластеризацию, классификацию/отображение и фильтрацию. Для обработки изображений мы можем пометить пиксели, а для НЛП мы можем пометить ключевые слова и их положение в контексте. Алгоритмы, используемые в этих двух областях, представляют собой сверточную нейронную сеть, повторяющуюся нейронную сеть, случайный лес, кластеризацию опорных векторов и т. д.

Много проблем, которые нужно решить в этом супер крутом проекте. Во-первых, как маркировать данные цифрового сигнала человеческого голоса. Я могу придумать два пути для достижения этой цели. «Более простой» способ — воспользоваться существующими инструментами распознавания голоса, такими как Alexa или Siri, для преобразования цифрового голоса в текстовые абзацы. Затем машина может прочитать этот текстовый абзац, используя определенный диалект. Более агрессивный способ состоит в том, чтобы напрямую маркировать цифровые сигналы и накладывать диалектный фильтр на цифровые голосовые сигналы. Во-вторых, как разделить реальные сигналы и шумы в голосе, что очень похоже на популярное исследование обнаружения границ при обработке изображений.