ML в современном сторителлинге

Команда Кларифаи

С более чем миллиардом загрузок и более чем 5 миллионами авторов каждый месяц оценка и сортировка историй стала невозможной для Wattpad вручную.

Это становится особенно очевидным, если учесть, насколько сложными должны быть истории. Существует разнообразный набор строительных блоков, из которых состоит великолепная история, включая жанр, грамматику, тон, диалоги, структуру предложений, сеттинг и персонажей, и это лишь некоторые из них.

Именно здесь Wattpad полагается на свою запатентованную технологию «Story DNA» и искусственный интеллект. Вдохновленная проектом музыкального генома Pandora, технология Story DNA использует машинное обучение для создания ценного контента из самых разнообразных историй в мире и их данных. ДНК истории помогает понять содержание истории на гораздо более глубоком уровне.

Wattpad собирает истории из общедоступных источников и имеет более миллиарда загрузок на 50 разных языках. Wattpad может использовать эти данные для обучения моделей тому, как сортировать контент, и предлагать стилистически похожий контент.

До разработки Story DNA Wattpad полагался на обычные «данные о тенденциях», чтобы находить успешные истории. ДНК истории помогает определить великие истории до того, как они соберут значительную читательскую аудиторию. ДНК истории может оценить качество истории, настроение истории, базу читателей и социальные результаты, такие как обмен, добавление в библиотеку и комментирование.

Масштабирование и устранение смещения в обучающих данных

Wattpad каждый год организует крупнейший в мире писательский конкурс для писателей со всего мира. Конкурс, известный как «Wattys», стал основным катализатором инноваций в написании историй с момента его создания в 2009 году. На сегодняшний день было подано более 1,2 миллиона заявок, которые превратились в одни из самых больших хитов, таких как «Поцелуй обоих». Самой большой проблемой для Wattpad было судить конкурс писателей, на который ежегодно поступали тысячи работ.

Wattpad использует свой индексатор качества, который представляет собой алгоритм машинного обучения, проверяющий грамматику, структуру предложений и аналогичные особенности истории. Эта модель машинного обучения была обучена с использованием 20 000 классических рассказов Гутенберга, доступных в открытом доступе, а также тщательно отобранных рассказов Уотти за 9 лет. Каждая история, представленная писателем, проходит через этот индексатор качества. Индексатор качества оценивает каждую историю и помогает найти историю с лучшей грамматикой и структурой предложения.

У этой модели есть некоторые ограничения, поскольку «классическая литература», представленная собранием классиков Гутенберга, как правило, исходит из ограниченного культурного контекста. Эта ограниченная точка зрения может привести к предвзятости. Например, со временем было замечено, что фантастические истории всегда получают более высокий балл в индексаторе качества.

Чтобы решить эти проблемы предвзятости, люди и машины в Wattpad работают вместе, чтобы курировать контент, который позволит создавать блокбастеры следующего поколения. Story DNA помогает Wattpad раскрыть новые голоса рассказчиков во всех областях и жанрах.

ИИ как важный инструмент письма

Сможет ли когда-нибудь машинное обучение написать собственный блокбастер? Пока нет, и в этом нет необходимости, потому что миллионы людей уже делятся своими оригинальными историями на Wattpad. Однако алгоритмы машинного обучения, безусловно, могут помочь раскрыть существующие возможности.

Первоначально опубликовано на https://www.clarifai.com.