В начале 2017 года компьютерная программа AlphaGo победила Кэ Цзе, лучшего в мире игрока в го. Эта поразительная победа стала еще более примечательной благодаря тому факту, что AlphaGo была запрограммирована на полную автономию, без участия человека. Как машине удалось перехитрить одного из самых опытных игроков в истории? Ответ кроется в растущей мощи искусственного интеллекта (ИИ). Искусственный интеллект и компьютеры в целом меняют способы решения проблем и уже начали трансформировать многие отрасли. Я расскажу, как компьютеры и ИИ меняют наше представление о решении проблем, и рассмотрю некоторые этические последствия использования ИИ для решения проблем.

Довольно убедительно, правда? Этот вводный абзац был создан с использованием авторегрессионной языковой модели, использующей глубокое обучение для создания текста, похожего на человеческий. Параграф об ИИ, созданный ИИ. Требуя всего лишь нескольких подсказок, таких как ключевые слова (AI, AlphaGo) и тон голоса (убедительный, информативный), модель способна создавать прозу связно и даже элегантно. Благодаря архитектуре из 175 миллиардов параметров, занимающих 800 ГБ памяти, а также обучающим данным из книг, разговоров в социальных сетях и Википедии, Generative Pre-trained Transformer 3 (GPT3) от OpenAI может генерировать текст с беглостью, эквивалентной человеческой. Настолько, что раздавались призывы к проведению исследований, чтобы снизить риск, связанный с незнанием того, был ли текст создан человеком. Если написание вводного абзаца вручную можно считать проблемой, то компьютеры — или, точнее, искусственный интеллект — определенно изменили способ ее решения.

Давайте на мгновение уменьшим масштаб. Замечательные возможности GPT3 стали возможными благодаря огромному накоплению успехов в мире вычислений, алгоритмического мышления и решения проблем. С момента появления электронных компьютеров в 20-м веке компьютеры произвели революцию в способах решения проблем, предоставив новые типы стратегий, такие как подсчет, моделирование и моделирование, с возрастающей скоростью и точностью. Если взять в качестве примера эволюцию скорости вычислений, то iPhone 6 может выполнять вычисления в 100 000 раз быстрее, чем IBM 7030, суперкомпьютер той эпохи стоимостью в несколько миллионов долларов [1]. Успех шахматного компьютера Deep Blue компании IBM над гроссмейстером Гарри Каспаровым является ярким примером возможностей так называемого «искусственного интеллекта», использующего только методы грубой силы, чтобы преобладать над человеческими способностями. Решая подобные задачи таким способом, мы сталкиваемся с «комбинаторным взрывом» возможностей. Если средний ход в шахматах имеет 35 возможных ходов, то, чтобы заглянуть на 2 хода вперед (еще 35 ходов на каждый из первых 35 возможных ходов), компьютер должен рассмотреть 35*2 = 1225 вариантов. Чтобы заглянуть на 5 ходов вперед, компьютер должен рассмотреть 52 миллиона возможностей. Если посмотреть на 10 ходов вперед, это более 2,75 квадриллиона возможностей. Оценивая 200 миллионов ходов в секунду, все 5-ходовые возможности можно рассмотреть менее чем за 4 секунды, но для 10 ходов потребовалось бы почти 160 дней — отсюда и «комбинаторный взрыв». Тем не менее, специально созданный компьютер IBM преуспел в попытке решить проблему таким способом. Так что да, компьютеры могут изменить способ решения проблем, но мы должны искать умные компьютеры, чтобы решать проблемы еще лучше.

Хотя влияние Deep Blue сохраняется в истории искусственного интеллекта, оно стало гораздо хуже, чем разработки, сделанные за 25 лет после победы над Каспаровым. Революция машинного обучения позволила достичь гораздо более сложных результатов, чем шахматный компьютер с грубой силой. Алгоритмы машинного обучения могут строить модели на основе выборки и обучающих данных и учиться хорошо выполнять определенные задачи без явного программирования на это.

В октябре 2006 года Netflix объявил «Премию Netflix» — конкурс, призванный решить конкретную задачу: сделать рекомендательную систему Netflix на 10% точнее в обмен на награду в размере 1 000 000 долларов. Спустя три года окончательное победившее решение команды BellKor's Pragmatic Chaos использовало сочетание метода разложения по сингулярным значениям (SVD) и ограниченного метода машинного обучения Больцмана (RMB) на разреженных матрицах пользовательских элементов для генерации рекомендаций, обученных на набор данных с 480 189 пользователями и 17 770 фильмами [2]. Считается, что нейронные сети, еще один тип процесса машинного обучения, были реализованы в Netflix «Continue Watching Ranker» [3]. Он использует рекуррентные нейронные сети (RNN), алгоритм глубокого обучения, для прогнозирования чувствительных ко времени последовательностей [4]. RNN имеют петли обратной связи, которые позволяют предыдущим выходным данным влиять на следующие входные данные. Netflix может использовать прошлые игры пользователей с некоторыми контекстными данными, чтобы предсказать, какой может быть следующая игра пользователей, как показано на рис. 1.

С помощью таких моделей глубокого обучения мы можем исследовать решения задач прогнозирования гораздо более высокой сложности, чем просто предсказание на несколько ходов вперед в шахматной игре. ИИ изменил то, как потоковые сервисы, такие как Netflix, могут рекомендовать правильное шоу, как поисковые системы могут отображать наиболее релевантные результаты за доли секунды или как они могут даже покупать и продавать акции на миллиарды долларов на NASDAQ каждый день.

Компьютеры и то, что мы можем с ними сделать, подтолкнули нас к необычайной эволюции методов решения проблем: от простых задач до грубого искусственного интеллекта и моделей, которые действительно могут научиться решать проблемы. Опираясь на простые вычислительные задачи и используя возможности компьютеров для высокоскоростных, объемных и высокоточных вычислений, мы можем не только использовать компьютеры для явного решения проблем, но и создавать компьютеры, которые могут научиться решать задачи, которые мы им даем.

Теперь о машинном обучении, но в контексте обработки естественного языка. Модель GPT3, использованная для создания первого вводного абзаца, имеет архитектуру трансформатора, типа модели глубокого обучения. Подобно RNN, используемым в системах Netflix (хотя у них есть различия), преобразователи предназначены для последовательной обработки данных, что делает эту модель настолько применимой для обработки естественного языка. В этом разделе я углублюсь в некоторые детали GPT3, его обучение, а также механизмы и методы, используемые в модели преобразователя. (Стоит отметить, что это введение было написано человеком, но это свидетельство невероятной революции в обработке естественного языка и машинном обучении, на которую я должен обратить внимание.)

Трансформаторы, как следует из названия, преобразуют входную последовательность в выходную последовательность. Архитектура преобразователя, предложенная в статье «Внимание — это все, что вам нужно» [6], совершила скачок в обработке естественного языка, полностью устранив необходимость в рекуррентных сетях или любых видах сверток, одновременно улучшая такие задачи, как как перевод [6]. Другими словами, преобразователи обрабатывают входные данные целиком, а не используют петли обратной связи, и преимуществом этого является сокращение времени обучения, поскольку одновременно может выполняться больше процессов. До этого момента RNN были одной из основных моделей в методах обработки естественного языка, включающих взятие предыдущей последовательности слов и настройку вектора вероятности (определенного списка чисел) и повторение этого для каждого нового слова [7]. Однако проблема с большими последовательностями заключается в том, что модель должна начать заменять старые вероятности новыми после определенной точки, поскольку векторы имеют только конечную длину. RNN по сути забывают информацию, которую они видели перед конкретной позицией, что делает их склонными следовать цепочке рассуждений, которая в некоторой степени не имеет отношения к исходной теме [7]. Сети долговременной/краткосрочной памяти (LSTM) могут решить эту проблему, изучая, что следует забыть, и гарантируя, что вектор рекурсии содержит наиболее релевантную информацию. Однако у LSTM по-прежнему есть свои недостатки, поскольку в больших контекстах им трудно решить, какую информацию отбросить [7].

Архитектура трансформатора показана на рис. 2, как описано в разделе «Внимание — это все, что вам нужно». На этой диаграмме кодер находится слева, а декодер — справа, поэтому в модели используется архитектура кодер-декодер. Кодер и декодер могут быть размещены на одинаковых уровнях. Задача кодера состоит в том, чтобы преобразовать исходную входную последовательность в вектор, в то время как декодер разгадывает эту информацию для создания выходной последовательности. Наиболее важные вычисления GPT3 происходят внутри его стека из 96 слоев преобразовательного декодера, каждый с 1,8B параметров [8].

Еще одним важным аспектом модели-трансформера является механизм внимания. Механизм внимания смотрит на входную последовательность и на каждом этапе решает, какие другие части последовательности важны [5]. Аналогично, вы можете представить, что во время чтения, хотя вы сосредотачиваетесь на текущем слове, ваш разум сохраняет ключевую информацию о тексте в целом, чтобы обеспечить контекст того, что вы читаете. Ширина GPT-3 составляет 2048 токенов, что соответствует ширине его «контекстного окна» [8]. Механизм внимания дает модели возможность понимать, какие слова важно учитывать, и на каждом уровне стека кодера каждому слову присваиваются числовые веса, которые могут быть проанализированы декодером [7]. Таким образом, ключевые особенности входных данных могут быть должным образом учтены для создания выходной последовательности. По сравнению с LSTM, изучающими, что забыть, механизм внимания занимается тем, что помнить, или, скорее, на что обратить внимание.

Как и в любой модели машинного обучения, ее обучение является важным компонентом. Чтобы модель трансформатора, или, в частности, GPT3, могла производить эти «выходные данные», которые обсуждались, модель должна сначала научиться это делать в течение периода обучения. Модель подвергается воздействию большого количества текста; процесс обучения, который, по оценкам, обошелся в 355 лет использования графического процессора и 4,6 миллиона долларов США [8]. Во время обучения модель пытается предсказать следующее слово в определенной последовательности. Если это неверно, вычисляется ошибка в прогнозе, которая используется для обновления модели, чтобы в следующий раз сделать более точный прогноз. Одна из самых впечатляющих новинок GPT3 по сравнению с его предшественником GPT2 — это размер. Необученная модель начинается со случайных параметров, но после периода обучения ее 175 миллиардов параметров кодируют то, что она узнала, чтобы предсказать правильные результаты. Огромному количеству параметров присваиваются соответствующие значения по мере того, как модель учится правильно обрабатывать информацию, что аналогично основам нейронной сети.

Также было показано, что GPT3 обеспечивает высокую производительность в режиме «несколько выстрелов» [9]. Это означает, что предварительно обученная модель, обученная на связанных задачах, способна хорошо выполнять последующие задачи, быстро и эффективно обобщая всего лишь несколько примеров, преимущества которых включают значительное сокращение объема данных, обрабатываемых задачами. специфический. Тем не менее, использование предварительно обученной модели и ее точная настройка с использованием данных для конкретной задачи позволяет ей стать еще лучше в определенных задачах, таких как перевод между двумя конкретными языками [8].

GPT3 — это чрезвычайно сложная языковая модель, которая способна создавать невероятно естественные последовательности текста с помощью всего лишь небольшого ввода и нажатия кнопки. Он подчеркивает потенциал языковой модели, обученной с использованием множества параметров и большого количества данных. Мне удалось создать удачный и изящный вводный абзац за считанные секунды благодаря использованию модели трансформатора, обученной на огромном объеме данных, состоящей из огромного количества параметров и требующей многих лет времени графического процессора для обучения. Универсальность GPT3 в широком спектре применений, таких как написание, перевод и даже кодирование, указывает на будущее, в котором машины и люди смогут беспрепятственно взаимодействовать.

Библиография

[1]: Чиверс, Том — ИИ не ненавидит тебя Глава 4 с. 41

[2]: Корен, Иегуда — Решение BellKor для главного приза Netflix 2009 г.

[3]: https://towardsdatascience.com/deep-dive-into-netflixs-recommender-system-341806ae3b48 (по состоянию на 17.11.2022).

[4]: https://slideslive.com/38917692/recent-trends-in-personalization-a-netflix-perspective (по состоянию на 18.11.2022)

[5]: https://medium.com/inside-machine-learning/what-is-a-transformer-d07dd1fbec04 (по состоянию на 18.11.2022)

[6]: Ашиш Васвани, Ноам Шазир, Ники Пармар, Якоб Ушкорейт, Лайон Джонс, Эйдан Н. Гомес, Лукаш Кайзер, Илья Полосухин — Внимание — это все, что вам нужно, 2017

[7]: https://medium.com/nerd-for-tech/how-gpt-3-actually-works-from-the-ground-up-5714ae7f3355 (по состоянию на 18.11.2022)

[8]: http://jalammar.github.io/how-gpt3-works-visualizations-animations/ (по состоянию на 19.11.2022).

[9]: Том Б. Браун, Бенджамин Манн, Ник Райдер, Мелани Суббия, Джаред Каплан, Прафулла Дхаривал, Арвинд Нилакантан, Пранав Шьям, Гириш Састри, Аманда Аскелл, Сандини Агарвал, Ариэль Герберт-Восс, Гретхен Крюгер, Том Хениган, Ревон Чайлд, Адитья Рамеш, Дэниэл М. Зиглер, Джеффри Ву, Клеменс Винтер, Кристофер Хессе, Марк Чен, Эрик Сиглер, Матеуш Литвин, Скотт Грей, Бенджамин Чесс, Джек Кларк, Кристофер Бернер, Сэм МакКэндлиш, Алек Рэдфорд, Илья Суцкевер, Дарио Амодей — Языковые модели изучают немногие, 2020 г.