ЯНВАРЬ

10.01.22 Всем привет, добро пожаловать в мой опыт работы с глубоким обучением для создания системы, которая определяет, есть ли у пользователя нарушение речи или нет. В прошлом я довольно много работал с машинным обучением, но никогда не работал над крупномасштабными проектами отраслевого уровня. На данный момент я не уверен, какой тип модели лучше всего подходит для оптимизации (CNN, RNN, GAN и т. д.), но проведу обширные исследования, чтобы выяснить, что будет работать лучше всего. Поскольку это данные последовательности (в виде звука, что я подтвержу, как только получу данные), я предполагаю, что RNN будет работать лучше всего.

14.01.22: я искал набор данных для своего приложения, но это оказалось немного сложно. Многие наборы речевых данных очень надежны, но охватывают более реальные задачи, такие как простые команды/ключевые слова (например, да, нет, стоп, иди). Одним из примеров довольно популярного набора данных классификации речи, который я нашел в своем исследовании, является набор данных UrbanSound8k, в котором есть такие слова из реального мира. Я также наткнулся на набор аудиозаписей от Mozilla (право, компании Firefox) под названием Common Voice с огромным количеством речевых данных (в тысячах часов). Однако он довольно большой, около 70 ГБ, так что честное предупреждение, если вы хотите его загрузить. В итоге я так и сделал, но не уверен, буду ли я когда-нибудь использовать или реализовывать это.

17.01.22: Я думаю, что нашел пригодный для использования набор данных через какую-то бумагу, которую нашел в Интернете. Исследование проводится не в Соединенных Штатах, поэтому я не уверен, насколько надежным оно будет для моего конкретного варианта использования/конечной аудитории. Я должен просмотреть клипы, чтобы понять, есть ли смысл. Две другие проблемы, которые я вижу с набором данных, заключаются в том, что диапазон аудиофайлов не такой большой, т. е. набор данных не такой целостный. Поскольку исследование проводилось на детях, я не совсем уверен, насколько хорошо оно будет работать со взрослыми голосами. Другая проблема заключается в том, что данных может просто не хватить. Судя по моим исследованиям в Интернете, для задач классификации звука требуется много данных.

20.01.22: я еще немного покопался и нашел набор данных, который, на мой взгляд, немного полезнее. Он называется набором данных SEP-28k и содержит 28 000 клипов, взятых из подкастов. Это решает обе проблемы, которые у меня были с предыдущим набором данных, поскольку в нем довольно много данных, а сам звук весьма разнообразен. Я прослушал несколько клипов, и они кажутся довольно хорошими. Иногда качество звука само по себе не очень хорошее, но, надеюсь, это может имитировать реальные условия. Каждый клип длится три секунды (после настройки набора данных и запуска написанного кода), что не должно быть слишком коротким. Я думаю о том, чтобы еще немного поработать/поработать над теорией, прежде чем продолжить проект, чтобы заново ознакомиться со всем.

23 января 22 (22 января). До сих пор я много изучал модели и аудио, а это означает, что я, вероятно, исчерпал большую часть первой страницы ML YouTube. До сих пор я в основном изучал теорию всего, пытаясь понять математику, стоящую за всеми моделями, их архитектуру и принцип их работы. Было очень познавательно потратить время на то, чтобы пройти через все, и я многому учусь в связи с получением идей о том, как реализовать мой проект.

31/01/22:Чтобы лучше узнать себя, я решил создать небольшую CNN (Сверточная нейронная сеть), которая распознает рукописные цифры. На самом деле это был первый конкретный пример использования машинного обучения, о котором я узнал несколько лет назад из серии 3 Blue 1 Brown по глубокому обучению (я настоятельно рекомендую это новичкам, это помогло с теорией [хотя я скажу, что это было полезно быть знакомым с машинным обучением раньше и знать некоторые идеи как концептуально, так и математически]). Поскольку задача, очевидно, хорошо документирована, она была действительно успешной, но в основном она просто познакомила меня с PyTorch как с фреймворком, чего я и хотел в конце. Я использовал TensorFlow/Keras в прошлом, но слышал о возможностях PyTorch и хотел их протестировать. Скорее всего, в следующий раз я планирую поэкспериментировать с RNN.

-Ведант