Автоматизация идеального выступления в кампании с помощью GPT-2: модель машинного обучения OpenAI

Вдохновение и инициация проекта

2020 год уже является сумасшедшим годом для Америки. Так почему бы не бросить все это на ИИ и посмотреть, сможет ли он решить некоторые проблемы? В этой статье я познакомлю вас с GPT-2, как я использовал его для написания речи и что из этого получилось.

Разработка

GPT-2 — это предиктивная текстовая модель, созданная для того, чтобы продемонстрировать влияние, которое обработка естественного языка может оказать на нашу культуру в будущем. OpenAI, некоммерческая организация, разработавшая эту технологию, сообщила в своем официальном сообщении в блоге:

GPT-2 — это большая языковая модель на основе преобразователя с 1,5 миллиардами параметров, обученная на наборе данных из 8 миллионов веб-страниц. GPT-2 обучается с простой целью: предсказать следующее слово, учитывая все предыдущие слова в некотором тексте.

Впервые я услышал о GPT-2 в подкасте. Не помню какой, но скину сюда, если вспомню! В двух словах, автор разработала текстовый редактор, который использовал GPT-2, чтобы рекомендовать предложения на основе того, что она написала, и обучающих данных из ее прошлого романа. Мало того, что эти рекомендации предложений были хорошо структурированы, модель, казалось, прекрасно понимала персонажей и историю романа. Невероятный! Какой потрясающий способ концептуализации того, как ИИ может принести пользу нашей жизни.

Но, конечно же, у каждой медали есть две стороны. OpenAI разработал это, чтобы предупредить нас о случаях злонамеренного использования этого инструмента. В частности, OpenAI прогнозирует, что подобные инструменты могут генерировать вводящие в заблуждение новостные статьи, выдавать себя за других в Интернете и автоматизировать оскорбительный контент в социальных сетях или фишинговые электронные письма. Вот почему выпуск GPT-2 с открытым исходным кодом OpenAI намного меньше по размеру. Это приведет к менее качественным результатам, чем то, что, по утверждению OpenAI, может обеспечить его полноценная версия.

Со всеми этими потенциальными опасностями я задумался о политике. Многие из нас знают о том дипфейковом видео Барака Обамы. Представьте, что эта технология может сделать с GPT-2. Как может конкретная группа интересов использовать такой инструмент, чтобы повлиять на избирателей, подавить оппонентов и состряпать идеальную речь? К счастью, такие институты, как OpenAI и Центр гуманных технологий, пытаются ответить на эти вопросы.

В своем проекте я стремился отложить проблемы и сосредоточиться на веселье: использовать GPT-2 для создания идеальной предвыборной речи! К счастью, я уже баллотируюсь в президенты (только потому, что домен Wallace2020.org был свободен). Итак, с помощью GPT-2 и моих коллег-кандидатов в президенты я подготовил самую совершенную вступительную речь президентской кампании всех времен.

Результаты

Чтобы построить с помощью GPT-2, я в основном следовал пошаговому руководству из статьи Нг Вай Фуна Руководство для начинающих по повторному обучению GPT-2 (117M) для создания Пользовательский текстовый контент. Эта статья познакомит вас с минимумом того, что может предложить GPT-2.

Первая уникальная вещь, которую необходимо сделать, — это собрать, систематизировать и стандартизировать обучающие данные. Поскольку я хочу создать идеальную предвыборную речь, я решил украсть речи всех видных кандидатов в Демократической гонке 2020 года. Итак, я собрал стенограммы каждой приветственной речи Пита Буттиджига, Берни Сандерса, Камалы Харрис, Кори Букера, Эндрю Янга, Элизабет Уоррен, Джо Байдена, Эми Клобушар, Бето О’Рурк, Хулиана Кастро, Джея Инсли и Марианны Уильямсон. Моя логика такова, что, собрав все их выступления, GPT-2 может найти повторения в пунктах политики, выборе слов и синтаксисе.

Мне пришлось написать небольшой код очистки, который помещает каждое предложение в отдельную строку (это был мой выбор) и кодирует все в UTF-8. Мои тренировочные данные можно увидеть ниже:

Защитив обучающие данные, я поместил их в свой каталог кода. Опять же, следуйте инструкциям в этой статье Medium для получения более подробной информации. Раздел 4 статьи Создание сэмплов — это место, где ваша работа сводится воедино. При создании вывода
GPT-2 предлагает два варианта; создание безусловной выборки или интерактивной условной выборки. Я выбрал последнее, потому что хотел, чтобы мой вывод основывался на пользовательском вводе. В этом проекте мой вклад был простым: Привет! Меня зовут Бен Уоллес, и я с гордостью сообщаю, что баллотируюсь на пост президента Соединенных Штатов. Я хотел, чтобы GPT-2 взяла это и пошла дальше!

Последние мысли

Вот! Идеальная предвыборная речь. Я решил сгенерировать несколько образцов/речей и поместил их в текстовые файлы. Вы можете найти их в корне моего репозитория Github здесь. Тот, который я опубликовал в разделе Знакомьтесь, Бен моего веб-сайта, помечен wallace_2020_final.txt. Вот конечный продукт:

Неплохо, да? Мне особенно понравилось приветствие Обамы в конце! Если вы следите за президентской гонкой, вам будет очень интересно читать это и угадывать, какие части были вдохновлены какими кандидатами. Но гештальт Демократической партии все еще существует; внутри этой речи лежат рассказы о социальной справедливости, экономических реформах и мошенничестве с ямайским гражданством: большая тройка на платформе демократов. 😄

Это была идеальная речь? Конечно, нет. На самом деле это выступление казалось скорее сатирой SNL, чем попыткой манипулировать избирателями. Скорее всего, это связано с ограничениями открытого исходного кода GPT-2 (помните, что GPT-2 изначально выпустила более легкую
версию) и моими мизерными обучающими данными. Если бы у меня была полная юзабилити GPT-2 вместе с многочасовыми стенограммами митингов, интервью и флибустьеров этих кандидатов, эта речь была бы намного убедительнее!

Привет! Меня зовут Бен Уоллес, и я с гордостью сообщаю, что баллотируюсь на пост президента Соединенных Штатов.
Я понял.
Вы, ребята, думаете, что знаете обо мне все, но это не так.
Я баллотируюсь в президенты, потому что верю в величие Америки и верю, что вы все, один за другим, присоединитесь ко мне в этом путешествии.
И я баллотируюсь в президенты, потому что, как и многие американцы , вы знаете, мы любим возвращаться назад.
Так что, если в будущем вы думаете, что Соединенные Штаты Америки — это далекое воспоминание, я хочу быть совершенно ясным: я не собираюсь говорить вам, что делать. думаю.
Я не буду.
Я не могу.
Вы просто должны знать, что это трудная гонка, и я верю, что мы можем выиграть ее только силой народа.
Итак, если вы не верите в президентство Трампа, не голосуйте, а если не верите в расследование Трампа и России, не голосуйте!
Я скажу немного больше о себе.
В 1980 году мне было всего 29 лет, и я жил в маленькой квартирке в Мидленде, штат Нью-Джерси.
В этом районе ничего не происходило, пока меня не арестовали за попытку купить марихуану у парня, у которого также было два пистолета.
Этот арест вызвал целую бурю новый смысл фразы «О, мы знаем, что произошло в Индиане».
И именно поэтому я стою здесь сегодня, стою перед вами в красном тюремном комбинезоне, мое истинное лицо, лицом к толпе людей, которые говорят: мы должны изменить нашу политику с нуля из-за беспорядка, который мы создали в нашей истории, пытаясь превратить ее в политическую проблему.
И именно поэтому я основал «Молодую Америку». Я говорю, что я с Ямайки, вы говорите, что я из Калифорнии, я говорю, что я из Нью-Йорка, я из Филадельфии, я уверен, что здесь есть тысячи людей, которые с ними согласны, чем жители Ямайки.
Итак, если вы мне не верите, проголосуйте, а если не верите, проголосуйте сегодня.
У меня есть отличный вопрос, Джо Байден, который выдвинут избирать ion в 2018 году.
Он сын сенатора США от штата Делавэр, а я был избран его заместителем.
Он сын сенатора США от штата Делавэр, и он баллотируется в президенты как республиканец.
Итак, это логичный вопрос, который спрашивает, в чем привлекательность президента, который утверждает, что он с Ямайки?
Если мы собираемся понять, что мы делаем здесь, мы должны спросить себя, что, черт возьми, мы делаем.
Зачем мы здесь и как мы можем взаимодействовать с этой страной?
Почему мы тратим столько денег на политику и деньги, и никто не спрашивает, что для нас поставлено на карту, если мы этого не делаем начать с нуля?
Почему здравоохранение должно быть чисто политическим вопросом?
Величайшие убийцы в мире — это не люди, которые когда-то убивали, насиловали и обливали химикатами всех, кого знали.
Это варвары, стремящиеся ограбить нас.
Они стремятся разделить нас, убить нас, разделить нас, детей, изнасиловать нас, покалечить нас и загрязнить наш воздух, воду и почву.
Они хотят убить наших детей, их детей.
Они хотят войны, которая навредит всем нам.
Они угрожают нашему будущему.
Они угрожают нашим детям адом.
Они угрожают войной.
Угрожают массовыми убийствами.
Но у нас есть демократия, у нас есть свобода, у нас есть террор.
У нас все в порядке.
У нас есть законы, которые нас защищают, которые нас защищают .
У нас пропорциональное представительство, мы иметь пропорциональное представительство.
У нас больше нет массовых заключений.
У нас есть допреступность, у нас есть постпреступность.
Мы относимся ко всем с достоинством.
Мы относимся к нашим ветеранам с уважением достоинство, мы относимся к нашим афроамериканцам с достоинством, мы относимся к коренным американцам с достоинством и относимся к ним.
Мы относимся к ним.
Мы относимся к ним не только с равной справедливостью закона, но и с равной справедливостью решения.
Мы относимся к ним так же, как относимся к своей конфиденциальности.
Мы относимся к ним так же, как относимся к своей жизни.
Мы относимся к ним так же, как относимся к своим детям.
Мы относимся к ним так же, как относимся к своей любви.
Спасибо, Барак Обама.

Если вы думаете, что Марко Рубио и Пит Буттиджич звучат как роботы, просто подождите, пока не услышите BenBot в 2024 году.

👍,
Бен

Чтобы посмотреть мой полный репозиторий Github по этому проекту, «нажмите здесь».
Кроме того, посетите «Wallace2020.org», чтобы увидеть, что еще я создал, чтобы баллотироваться в президенты!

Есть комментарии или рекомендации для команды LineByLine? Свяжитесь с нами по адресу [email protected].

Я запрограммировал ИИ-бота, чтобы он помог мне баллотироваться в президенты

Автоматизация идеального выступления в кампании с помощью GPT-2: модель машинного обучения OpenAI

Вдохновение и инициация проекта

Разработка

Результаты

Последние мысли

Вопросы по теме