Тонкая настройка GPT-2 для короткометражной документальной литературы

Представьте себе совместную работу над статьей Medium с искусственным интеллектом, который прочитал каждое слово, которое вы когда-либо написали, - языковой модели, которая извлекала уроки из ваших сообщений, эссе, надиктованных заметок, ранних черновиков, отсканированных дневниковых записей, файлов исследований, любимых цитат и т. Д. любой другой кусочек мысли, который делает ваше письмо уникальным.

Ваш напарник по ИИ может дать грамотную критику вашего эссе и внести предложения о том, как улучшить вашу аргументацию. В нем могут появиться вдохновляющие цитаты, которые вы могли бы включить, и напомнить вам упомянуть странную мысль, которую вы сохранили на своем смартфоне, ожидая в очереди в DMV три года назад.

Искусственный интеллект не заменит писателей. Это улучшит ваш процесс написания, предоставив вам настраиваемый ридер и редактор, точно откалиброванные для работы, улучшающие ваш стиль, голос и темы.

Я не могу дождаться появления этого мира. Я научился программировать достаточно, чтобы создавать художественную литературу с помощью инструментов искусственного интеллекта, но в глубине души я журналист - нехудожественный рассказчик.

Я хотел увидеть, как ИИ может помочь мне в написании научной литературы прямо сейчас. Поэтому, используя сверхмощную языковую модель GPT-2, я обучил ИИ создавать обзоры фильмов для журнала Film Threat.

Этот краткий документальный эксперимент дал мне представление о будущих инструментах для письма, которые мы когда-нибудь будем использовать при написании для Medium.

Обзоры фильмов будущего

Когда OpenAI представила языковую модель GPT-2 в прошлом году, создатели беспокоились о том, как злоумышленники могут злоупотреблять этим инструментом. Компания медленно выпускала различные версии своей модели, внимательно следя за злоупотреблениями мощностью GPT-2.

Они беспокоились, что его можно использовать для:

«Создавайте вводящие в заблуждение новостные статьи.
Выдавайте себя за других в сети.
Автоматизируйте создание оскорбительного или фальшивого контента для публикации в социальных сетях.
Автоматизируйте создание спама и фишингового контента»

Годом позже GPT-2 становится полностью доступным для использования гражданскими лицами, обеспечивая удивительные игры, творческие писательские эксперименты и создание рецептов. До сих пор мы не наблюдали массового поколения фальшивой научной литературы.

Я полагаю, что наиболее интересные (и потенциально опасные) применения GPT-2 появятся из короткой документальной литературы. Обзоры Amazon, аннотации к книгам и реакции на фильмы уже потребляют так много нашего онлайн-внимания, иногда влияя на мнение людей о продукте или произведении искусства.

Начиная этот проект, я выбрал обзоры фильмов в качестве базовых материалов, потому что в Интернете существует обширная коллекция обзоров, созданных пользователями, некоторые из которых собраны в общедоступных наборах данных. Вы можете легко создать набор данных из обзоров книг, новостных статей, спортивных новостей или своей научной литературы.

Работая с редакционной группой Film Threat в прошлом году, я начал разработку ИИ, способного писать обзоры фильмов. Мы опубликовали несколько статей вместе, и я хотел бы рассказать, как мы обучали нашу модель.

Познакомьтесь с обозревателем искусственного интеллекта

Проект начался просто, до того, как я получил доступ к инструментам, способным настроить GPT-2. Тем не менее, обычная модель неплохо справлялась с кинокритикой.

В первой статье на Film Threat я начал с создания трогательных обзоров с помощью Talk To Transformer. Этот веб-сайт дает вам мгновенный доступ к GPT-2. Все, что вам нужно сделать, это ввести вопрос о фильме и нажать Завершить. Кодирование не требуется!

Я задал GPT-2 наводящий вопрос: «Кто был первым искусственным интеллектом, написавшим обзоры фильмов?» Мы получили превосходный ответ, сгенерированный компьютером (полностью неотредактированный):

“Artificial Intelligence Reviewer. It’s the robot you can pay $15 for to watch your movie while you finish making your dinner at home.”

GPT-2 дал мне имя нашего компьютерного кинокритика. Используя это имя и несколько наводящих вопросов, я создал достаточно материала для всей статьи Film Threat с этим простым интерфейсом.

Но я хотел сделать что-нибудь посложнее. В следующей статье я обновил Artificial Intelligence Reviewer, создав языковую модель, способную создавать бесконечные обзоры фильмов. По запросу, по требованию.

Тонкая настройка GPT-2 для просмотра фильмов

Используя технику машинного обучения, называемую «точной настройкой», я переобучил языковую модель GPT-2, которая использовала для Artificial Intelligence Reviewer МАССИВНЫЙ набор данных критики фильмов. Я накормил голодного бота огромным набором данных для обзора фильмов, дав AI Reviewer совершенно новый словарь для критики фильмов.

Вы можете прочитать результаты в моей второй статье об угрозе фильма, где понравятся любимые читатели фильмы с обзором, созданным на компьютере.

Вот как я тренировал ИИ для защиты от кинематографических угроз ...

1. Загрузите набор данных.

Во-первых, вам нужно найти образцы своей документальной литературы - обзоры книг, отзывы пользователей Amazon, сноски, сообщения в Twitter или любую другую короткую документальную литературу, которую вы хотите создать на компьютере. В Интернете есть множество наборов данных с обзорами фильмов. Вот один набор данных, который я нашел на сайте Stanford AI Lab:

«Это набор данных для двоичной классификации тональности, содержащий значительно больше данных, чем предыдущие эталонные наборы данных. Мы предоставляем набор из 25 000 обзоров полярных фильмов для обучения и 25 000 для тестирования ».

2. Настройте свою языковую модель GPT-2.

Настройка обеих моих языковых моделей заняла несколько дней. Макс Вульф создал потрясающий блокнот Google Colab, который делает этот шаг безболезненным и бесплатным. Я использовал версию GPT-2 среднего размера 355M, потому что она была достаточно большой, чтобы обрабатывать мой набор данных, но достаточно маленькой, чтобы работать на облачных серверах Google Colab. Я тренировал свою модель по 23 000 шагов каждая.

Я разбил обучающую последовательность на три меньших раздела, потому что Google Colab не выполнит более 12 000 шагов.

3. Сгенерируйте текст с помощью точно настроенной модели GPT-2.

Как только моя языковая модель была обучена, я начал создавать сотни общих обзоров фильмов. Это было интересно, но немного не в фокусе. Для каждого прогона я установил длину 200 символов, температуру на 0,7 и вывод на 10 отсчетов.

4. Попробуйте простые префиксы.

Настоящая магия происходит, когда вы начинаете загружать в модель новые префиксы. Это может быть так же просто, как дать название фильму. Вот первый тест, который я когда-либо пробовал:

Мы немедленно протестировали наш искусственный интеллект с наддувом в обзоре Звездных войн. За несколько секунд рецензент искусственного интеллекта произвел несколько потрясающих выводов вроде этого:

“The film’s heart is in the right place, but its arteries are seriously clogged up with syrupy clichés.”

Но затем AI Reviewer выпустил хлесткие обзоры Звездных войн, например:

“A big, bright, adrenaline-fueled summer entertainment that offers a lot of action and excitement, but never wastes a minute of our time.”

Я продолжал нажимать «запустить» снова и снова, пока не заполнил пустой документ тысячами отзывов. Чтобы найти лучшие обзоры из потенциально бесконечного потока обзоров Звездных войн, потребовалось много человеческого чтения.

5. Попробуйте использовать сложные префиксы.

Когда у меня появился интересный материал, посвященный приставкам к отдельным заголовкам, я начал сосредотачиваться на разных режиссерах и актерах, чтобы получить более конкретную критику фильма. Именно здесь все становится интереснее, когда вы начинаете играть с ограничениями модели.

Вот пример префикса:

Эта приставка подарила нам сумасшедший обзор одного из моих любимых фильмов 2019 года на иностранном языке. Это последнее смешение жанров кино до сих пор заставляет меня смеяться.

"Pain & Glory, a movie by Spanish director Pedro Almodóvar that is filled with beautiful moments and some of the most intense, beautiful scenes I've seen in a long time. The last act is nearly non-stop action and big explosions. It's epic, awesome, and bloody awesome. Feels like a cross between the Matrix, The Matrix Reloaded and Indiana Jones & The Temple Of Doom."

Я также ввел в свои префиксы несколько новых глаголов, таких как «выигрывать» и «проигрывать», по мере приближения сезона награждения.

Эти приставки принесут вам массу предсказаний на Оскар! Нравится:

"Little Women will win the Academy Award for Best Picture. I have a hard time believing the real-life story that is Perry Mason's Fresh Outta Compton. The movie is a good mix of true crime and urban legend."

6. Прочтите ВСЕ свои результаты.

Для документальной литературы, созданной с помощью искусственного интеллекта, всегда потребуется редактор-человек. Чтобы найти хоть один хороший обзор фильма, мне пришлось прочитать сотни и сотни страниц скучной, странной или даже нормально звучащей прозы. Это много работы. Но я никогда не говорил, что ИИ заменит писателей. Это просто поможет нам лучше писать.

Twitter и не только

Точно так же, как я мог бы создать рецензент по искусственному интеллекту, чтобы критиковать смешные и странные фильмы, я мог бы обучать своего напарника по GPT-2 всем моим собранным цифровым материалам. У меня есть как минимум десять лет цифрового текста, включая заметки, исследования, черновики и основные моменты чтения моей электронной книги. Я мог бы стать настоящим писательским партнером, изменяя и обновляя свои мысли всякий раз, когда мне нужен творческий импульс.

Работа Макса Вульфа всегда вдохновляла меня, и его недавнее эссе Как создать бота для создания текста в Twitter с помощью GPT-2 показывает нам, как эти языковые модели, обученные короткой документальной литературе, могут прожить всю жизнь в Интернете.

Он также высказал некоторую осторожность в отношении размера вашего набора данных. Если вы хотите создать уникальный текст с меньшим набором данных, вам нужно будет следовать этому совету:

Обратите внимание, что без большого количества твитов модель может легко переоснащаться и выводить существующие твиты дословно; в этом случае вы можете тренировать меньшее количество шагов (например, 200–500). Кроме того, я рекомендую использовать только модели GPT-2 124M «малая» и 355M «средняя»; большие модели GPT-2 плохо настраиваются на небольших текстовых документах и ​​малых объемах входных данных.

Только с помощью этого инструмента вы можете создать бота Twitter, который будет публиковать сообщения для вас, или создать нового бота, который будет публиковать сообщения на ваши любимые темы. Кто знает, какие еще инструменты будут доступны к концу года, когда GPT-2 и другие языковые модели будут размещены в новых фреймворках?

Автор и программист Дариус Каземи однажды сравнил эти достижения языковой модели с ранними днями Photoshop для художников-графиков:

«Если вас интересует будущее писательства, за этим определенно стоит следить. Это как быть фотографом при появлении Photoshop, потому что он может изменить правила игры ».

Когда-нибудь, я надеюсь, эти инструменты помогут нам создавать новые истории, о которых мы даже не догадываемся.