Здесь я использую данные соревнования kaggle, посвященного идентификации звука индейки с помощью встроенных аудио-видео на YouTube. Мое исследование также доступно здесь и здесь в виде блокнота.

сначала прочитайте данные

Данные поезда включают audio_embedding видео YouTube и метку, если встраивание включает звук индейки. Фреймы — это списки, содержащие (в основном) 128 элементов в столбце audio_embedding. Таким образом, каждый vid_id имеет список списков (в основном 10 кадров) в столбце audio_embedding. Я хочу объединить кадры в списках, где каждый список обозначает vid_id. Есть 1195 вложений. Но есть некоторые audio_embedding, которые короче 10 кадров. Эти вложения повторяются до тех пор, пока они не достигнут того же размера, как показано ниже.

теперь мы можем создать модель с помощью логистической регрессии и увидеть точность модели, которая составляет 93,6%

чтобы визуализировать кластеры, я проецирую данные в 2 измерения с помощью PCA (анализ основных компонентов)