Публикации по теме 'audio'


Аудио как данные с Silvertone
Давайте разберемся, как работать со звуком, чтобы использовать модели машинного обучения и глубокого обучения. Этот пост основан на исследовании, проведенном в рамках проекта Silvertone. На данный момент Silvertone доступен через Streamlit. Также не забудьте проверить репозитории приложения и проекта . Silvertone был заключительным проектом для ванны 1011 учебного лагеря Le Wagon Rio по науке о данных. Моя команда была сформирована: я; Виктор Саттамини, руководитель группы;..

NLPR, SenseTime и NTU ускоряют автоматическое редактирование портретов видео
Методы редактирования видеопортретов уже находят применение на телевидении, в видео и кинопроизводстве и, как ожидается, будут играть ключевую роль в развитии сценариев телеприсутствия. Современные методы уже позволяют реалистично синтезировать аудио из одного источника в видео. Теперь исследователи из Пекинской национальной лаборатории распознавания образов (NLPR), SenseTime Research и Наньянского технологического университета сделали еще один шаг вперед в этой технологии, создав новую..

100 дней кода машинного обучения — День 056
Итоги дня 055 День 055, мы рассмотрели работу со временем; как работает динамическое искажение времени. Мы узнали, что динамическое искажение времени можно рассматривать как решение проблемы оптимизации. Здесь наша целевая функция — это расстояние между двумя нашими последовательностями после того, как мы исказили одну, чтобы максимально соответствовать другой, и наша задача — найти искривление, которое минимизирует это расстояние. Сегодня мы продолжим с того места, на котором..

Создание конвейера машинного обучения для классификации английских акцентов
Пошаговое руководство по созданию модели классификации машинного обучения на основе аудио для наиболее распространенных английских акцентов и воплощению ее в жизнь с помощью Hugging Face. В нашем все более взаимосвязанном мире общение не знает границ. Поскольку различные сообщества взаимодействуют через границы и культуры, понимание акцентов стало неотъемлемой частью эффективного общения. Точная система классификации английского акцента способна устранить лингвистические пробелы,..

100 дней кода машинного обучения — День 073
Итоги дня 072 День 072, мы рассмотрели первую часть разработки пользовательских алгоритмов для музыки. Вы можете наверстать упущенное по ссылке ниже. 100 Days Of ML Code — День 072 Подведение итогов дня 071 medium.com Сегодня мы продолжим с того места, на котором остановились в 072-й день. Работа со временем Разработка пользовательских алгоритмов для музыки Две модели, которые мы видели ранее, исходят из более традиционных..

Реализация индикатора уровня звука в Angular
В этом сообщении блога мы обсудим, как реализовать компонент индикатора уровня звука в Angular. Компонент визуализирует уровень звука указанной звуковой дорожки, используя набор прямоугольников. Давайте углубимся в детали реализации. Инициализация компонента Давайте реализуем логику инициализации нашего компонента в методе ngOnInit . Этот метод будет вызываться при инициализации компонента. Добавьте следующий код: ngOnInit(): void { combineLatest([..

Разделяйте и расшифровывайте аудиофайлы с помощью OpenAI Whisper
Метод общего назначения для оптимизации предварительной обработки звука Прочитав эту статью, вы научитесь разбивать аудиофайл на несколько фрагментов с текстом транскрипции. Это удобно для тех, кто хочет автоматически вырезать и обрезать любую аудиозапись. Шаги следующие: Расшифруйте аудиоклип, используя большую модель OpenAI Whisper (скользящее окно 30 секунд). Преобразуйте текст транскрипции из традиционного китайского в упрощенный китайский с помощью OpenCC ...