Adamas Audio: машинное обучение и веб-разработка для производства дешевых аудиокниг и клонирования голоса

Вот TLDR для занятых:

Программное обеспечение клонирует голоса и создает аудиокниги на досуге с помощью инструментов, разработанных для улучшения взаимодействия с пользователем. Для тех, у кого есть время, полное объяснение приведено ниже:

Введение:

Итак, приступим; эта статья будет касаться https://www.adamasaudio.com/. Этот проект был мотивирован желанием разрешить почти неограниченное производство аудиокниг, а также пользовательские голоса для указанных аудиокниг, чтобы расширить возможности аудиотехники.

Прямо сейчас, чтобы полностью раскрыть информацию, единственный способ финансировать сайт — это реклама, так как я хочу, чтобы в противном случае он оставался полностью бесплатным, поэтому вам, возможно, придется терпеть раздражающие всплывающие окна (хотя есть несколько потрясающих объявлений, таких как услуги VPN).

Я дам краткий обзор того, как работает каждый сервис, а затем подробно расскажу об их функциях и возможностях.

Обычная аудиокнига (по умолчанию): Обычная аудиокнига имеет 2 режима: режим по умолчанию и настраиваемый режим. В режиме по умолчанию, если пользователь не хочет настраивать файл, он создаст mp3-файл для любого pdf-файла (теоретически это могут быть комиксы, финансовые документы, аудиокниги, конспекты лекций и т. д.). В настоящее время, кажется, нет ограничения на количество страниц, однако я бы не стал превышать 2000 страниц, так как могут возникнуть проблемы со стабильностью веб-сайта, если порог будет превышен, и просто объедините любые mp3-файлы с помощью инструмента слияния аудио.

2. Обычная аудиокнига (Пользовательская): аналогична настройке по умолчанию, но роботизированный голосовой движок можно настроить в определенной степени. Выходные форматы для аудиофайла на данный момент - это файлы mp3 и ogg (мы надеемся, что в будущем мы предложим больше). Предлагаемая скорость речи находится в диапазоне от 0 до 400, громкость находится в диапазоне от 0 до 1, где 0 означает отсутствие громкости, а 1 означает полную громкость и бинарные речевые паттерны мужского или женского рода, как показано на изображении ниже. Для контекста; Скорость речи определяет, насколько быстро будет произноситься голос создаваемого аудиофайла.

Я считаю, что этот уровень настройки должен быть доступен пользователю, чтобы пользователь мог настроить свой опыт так, как ему нравится, и от пользователя должно зависеть, как он хотел бы нарезать или объединить указанные файлы. Это можно сделать с помощью прилагаемого вспомогательного инструмента Audio Merger.

3. Голосовой синтез: Это, это настоящее мясо и сыр сайта и функция, которая, я считаю, отличает https://www.adamasaudio.com/ от всех других подобных веб-сайтов. Быстрый синтез и репликация голоса по требованию в сочетании с быстрой реализацией преобразования текста в речь с использованием синтетического голоса.

Короче говоря, с его помощью можно сделать аудиокнигу, используя глубокий фальшивый голос. Последствия чего могут быть весьма забавными. Например, вы можете очистить этот аудиофрагмент (вам придется использовать для этого стороннее программное обеспечение или разработать его самостоятельно, пока Adamas Audio не сможет его предложить): https://www.youtube.com/watch?v =YJzLC-AAWHw&ab_channel=TheObamaWhiteHouse и используйте его, чтобы Обама читал вам все, что вы пожелаете, например, помимо прочего, ваши любимые комиксы, такие как Наруто, или любой документ или книгу, которую вы хотели бы прочитать вам этим голосом.

В настоящее время существует ограничение в 6 страниц для сохранения оперативной памяти на сервере, так как это все еще экспериментальная функция. Но теоретически вы могли бы сказать, если вы действительно хотите быть креативным, использовать вымышленный голос, такой как голос Итачи (придерживаясь комиксов Наруто для справки): https://www.youtube.com/watch?v=k9etx-PClvk&ab_channel=WordsBeyondFiction читать все, что вам нравится, будь то ваши заметки или любой кусочек книги; вы можете создавать нужные вам клипы и связывать их вместе с помощью инструмента слияния аудио.

Кроме того, интересным трюком для истинной настройки голоса может быть использование высококачественных аудиоклипов малой продолжительности и использование голосового синтезатора для создания расширенных клипов, медленно расширяя их путем синтеза различных текстов для чтения, чтобы можно было создавать и объединять больше аудиосэмплов с помощью аудио. инструмент, пока не будет создано высококачественное аудио для более продвинутой настройки для пользователя.

Например, это нишевый пример, но есть довольно «интересный», у Альберта Эйнштейна очень мало записей на английском языке, насколько я понимаю.

Вы можете использовать записи и очищать их на досуге, используя любое стороннее программное обеспечение или метод, который вам нравится. Используйте эти аудиоклипы в качестве основы для синтеза любого текста, который вы хотите, в более длинный аудиоклип более высокого качества.

Теперь вы можете продолжать использовать более длинные тексты для создания более длинных аудиоклипов более высокого качества, которые вы можете использовать для создания рекурсивных процессов непрерывного создания аудиоклипов более высокого качества и большей продолжительности или наборов данных для обучения аудио, которые можно использовать для создания аудиокниг, озвученных в Голос Эйнштейна в теории с использованием функций синтеза голоса и слияния аудио.

4. Сжатие PDF: Как вы могли заметить, существуют некоторые ограничения на загрузку PDF-файлов по различным инженерным причинам. Таким образом, в качестве компенсации Adamas Audio предлагает встроенный инструмент сжатия PDF для максимально возможного сжатия PDF без потери качества в файле PDF. Таким образом, пользователь должен иметь возможность оптимизировать количество и качество звука, который он хотел бы сжать. Вы также можете сжать несколько PDF-файлов одновременно для вашего удобства.

5. Слияние аудио: в настоящее время инструмент слияния поддерживает только слияния mp3, поэтому может быть 1 совпадение в совместимости, если пользователь создает файл ogg, если пользователь хочет создать его с использованием пользовательских обычных настроек аудиокниги. Однако, с учетом сказанного, пока общий размер клипов не превышает 10 ГБ, инструмент слияния аудио должен иметь возможность объединять любую запрошенную последовательность клипов.

С кратким обзором / синопсисом пришло время для краткого погружения в инженерный аспект этого и их возможное использование; до пользователя.

Обычные аудиокниги:

Как показано в синопсисе, эту функцию можно использовать для создания любой аудиокниги из любого PDF-файла, настройка текста, конечно же, остается на усмотрение пользователя. Это делается с помощью алгоритма машинного обучения для эффективного чтения PDF-файлов и преобразования их в аудиокниги. Поскольку алгоритм машинного обучения может эффективно читать PDF-файлы, как человек, он может преобразовывать комиксы, публикации, статьи, изображения и т. д. в аудиокниги. Это до тех пор, пока алгоритм может обнаружить текст, что в большинстве случаев и должно быть.

Голосовой синтез:

Это, безусловно, самая сложная часть питонической инженерии, которая была на сайте. Она использует алгоритм машинного обучения для синтеза искусственного голосового синтезатора из созданного пользователем аудиоклипа или аудиофайла. Используя упомянутый синтезатор искусственного голоса, он использует метод, аналогичный обычным аудиокнигам, для создания пользовательского аудиоклипа. Поскольку это экспериментальная функция, для сохранения оперативной памяти сейчас можно загрузить только 20 МБ обучающего ролика, и чем длиннее текст, тем больше аудиоданных потребуется. предложить не менее 100 МБ (час или 2 часа обучающих данных в зависимости от того, насколько сжат аудиофайл) пространства обучающих данных, поэтому репликация голоса может быть почти идеальной (теоретически это еще не проверено из-за аппаратных ограничений как обсуждалось), а также расширить рамки экспериментальной длины страницы; но сначала этот сайт должен быть прибыльным.

Сжатие PDF:

Сжатие PDF использует алгоритм рекурсии, аналогичный обычной аудиокниге, только на этот раз он уменьшает размер PDF до максимально возможного состояния без потери качества.

Объединение аудио:

Инструмент Audio Merger объединяет файлы MP3 и разработан как вспомогательный инструмент, поэтому все клипы, созданные с помощью функции синтетического голоса, могут быть объединены в домашних условиях, если пользователь того пожелает.

Спасибо, что нашли время, чтобы прочитать статью, я надеюсь, что вам понравится Adamas Audio, и я надеюсь, что скоро мы расширимся и добавим новые функции: https://www.adamasaudio.com/.

Также обратите внимание: данные не хранятся более 48 часов, чтобы предотвратить нарушение авторских прав, кроме того:

Отказ от ответственности за авторские права В соответствии со статьей 107 Закона об авторском праве 1976 г. допускается «добросовестное использование» для таких целей, как критика, комментарии, новостные сообщения, обучение, стипендии и исследования. Добросовестное использование — это использование, разрешенное законом об авторском праве, которое в противном случае могло бы нарушать авторские права. Некоммерческое, образовательное или личное использование склоняет чашу весов в пользу добросовестного использования.