GPT-3 не понимает, что говорит

Масштабная языковая модель OpenAI GPT-3 генерирует впечатляющий текст, но тщательный анализ показывает, что все факты неверны.

Представьте, что мы отправили управляемый роботом космический корабль в дальние уголки галактики, чтобы связаться с другими формами жизни. На корабле мы разместили копию всего текста за три года в Интернете за последние три года, чтобы разумные инопланетные расы могли что-то узнать о нас. Пройдя двенадцать световых лет, корабль входит в Солнечную систему вокруг звезды Луйтен, где на него садятся инопланетяне. Лютеницы находят копию интернет-текста и пытаются разобраться в ней.

Они просят своих ведущих лингвистов интерпретировать эти странные символы, но не добиваются больших успехов. Лютениты находились в том же положении, что и археологи восемнадцатого века, которые продолжали находить камни с древнеегипетскими иероглифами. Наконец, в 1799 году археологи обнаружили Розеттский камень, на котором были и египетские иероглифы, и древнегреческий текст. Поскольку у них было то, что оказалось одним и тем же указом на двух языках, они наконец смогли выяснить значение иероглифов.

Но нашим лютеницам не повезло. Интернет-текст содержал английский, французский, русский и другие языки, но, конечно, не лютеницкий текст.

Лучшее, что они могли сделать, - это проанализировать статистические закономерности символов в тексте. На основе этого анализа они смогли создать новый текст со схожими статистическими шаблонами. Например, они сгенерировали этот кусок текста:

После двух дней интенсивных дебатов Объединенная методистская церковь согласилась на исторический раскол - тот, который, как ожидается, закончится созданием новой деноминации, которая будет «теологически и социально консервативной», как сообщает The Washington Почта. Большинство делегатов, присутствовавших на ежегодной Генеральной конференции церкви в мае, проголосовали за ужесточение запрета на рукоположение ЛГБТК-духовенства и за создание новых правил, которые будут «дисциплинировать» духовенство, совершающее однополые свадьбы. Но у тех, кто выступал против этих мер, есть новый план: они говорят, что сформируют отдельную деноминацию к 2020 году, назвав свою церковь христианской методистской деноминацией. The Post отмечает, что деноминация, насчитывающая 12,5 миллионов членов, была в начале 20 века «крупнейшей протестантской деноминацией в США», но в последние десятилетия она сокращается. Новый раскол станет вторым в истории церкви. Первый произошел в 1968 году, когда примерно 10 процентов деноминации осталось сформировать Евангелическую объединенную братскую церковь. The Post отмечает, что предлагаемый раскол «наступил в критический момент для церкви, которая годами теряла членов», которая «оказалась на грани раскола из-за роли ЛГБТК в церкви». Однополые браки - не единственная проблема, разделяющая церковь. В 2016 году деноминация разделилась из-за рукоположения трансгендерных священнослужителей: региональная конференция в северной части Тихого океана проголосовала за запрет им служить в качестве духовенства, а региональная конференция в южной части Тихого океана проголосовала за их разрешение.

Лутеницы понятия не имели, что означал этот сгенерированный текст, и задавались вопросом, будет ли он значимым для расы, создавшей текст.

Этот текст фактически был создан GPT-3, крупнейшей из когда-либо созданных систем машинного обучения. GPT-3 был разработан OpenAI, получившим миллиарды долларов финансирования для создания систем общего искусственного интеллекта (AGI), которые могут приобретать здравый смысл в мире знаний и правила здравого смысла. GPT-3 имеет 175 миллиардов параметров и, как сообщается, обойдется в 12 миллионов долларов.

GPT-3

Команда OpenAI использовала GPT-3 для создания восьмидесяти фрагментов текста, подобных приведенному выше, и смешала их с новостными текстами, созданными людьми. Они провели исследование, в котором попросили сотрудников, набранных с помощью Amazon Mechanical Turk, определить, была ли каждая статья создана человеком или компьютером. Статьи, созданные с помощью GPT-3, были идентифицированы как созданные машиной в 52% случаев или только на 2% лучше, чем вероятность. По сути, эти наемные работники не могли отличить текст, созданный человеком, от текста, созданного GPT-3. Фактически, показанная выше новостная статья была определена как написанная людьми 88% сотрудников.

Статистические модели текста, такие как GPT-3, называются языковыми моделями. GPT-3 - последняя в линейке все более мощных языковых моделей. Первая модель GPT, выпущенная в 2018 году, имела около 150 миллионов параметров. GPT-2, выпущенный в 2019 году, имел 1,5 миллиарда параметров, что на порядок больше, чем у исходного GPT, но на два порядка меньше, чем у GPT-3.

Некоторые исследователи предположили, что языковые модели каким-то волшебным образом познают здравый смысл о мире и учатся рассуждать на основе этого здравого смысла. Они утверждают, что языковые модели могут использовать эти общие знания и рассуждения для создания текстов. Что еще более важно, это здравое знание может служить основой для развития возможностей AGI.

Проверка фактов

Однако, хотя статья, созданная GPT-3, звучит правдоподобно, если вы сделаете хотя бы небольшую попытку подтвердить факты в приведенном выше тексте, созданном GPT-3, вы быстро поймете, что большинство важных фактов неверны. На самом деле произошло новостное сообщение за январь 2020 года, о котором сообщили многие новостные агентства, в том числе Вашингтон Пост. История заключалась в том, что официальные лица Объединенной методистской церкви предлагали разделить церковь, что должно было быть принято на голосование на Генеральной конференции в мае 2020 года.

Статья GPT-3 предположительно получила большую часть своих словосочетаний из этих новостных статей. Однако GPT-3 объединил эти словосочетания в предложения, в которых большинство фактов было неверным:

Генеральная конференция проводится каждые четыре года, а не ежегодно.
На момент обучения голосование на Генеральной конференции было назначено на май 2020 года. Этого еще не было.
Голосование за новые правила дисциплины духовенства не проводилось. Однако был ряд ранее предложенных правил, которые вызвали раздельное обсуждение.
Раскола 1968 года так и не произошло. Фактически, событие 1968 года было слиянием, а не расколом.
Церковь не делит Генеральную конференцию (или любую другую конференцию, о которой я могу найти информацию) на конференции в северной и южной частях Тихого океана с раздельным голосованием.

У меня нет доступа к GPT-3, но у всех есть доступ к его предшественнику GPT-2 на сайте https://talktotransformer.com/. Вы можете ввести начальный текст, и GPT-2 создаст следующий текст.

Например, когда я ввел «Движение в Коннектикуте…», GPT-2 выдал такой текст:

Движение в Коннектикуте и Нью-Йорке почти загружено, поскольку на многих развязках Long Island Expressway и Long Island Rail Road взимаются сборы. Это может повлиять на оставшуюся часть года, поскольку водители пытаются выяснить, удастся ли их поездка. В Нью-Джерси водители могут рассчитывать на то, что впервые будут платить более 1000 долларов за новый бесплатный мост администрации порта через реку Гудзон.

Первое предложение начинается хорошо, но затем начинается разговор о платных дорогах на развязках Лонг-Айлендской железной дороги. Однако это противоречит нашему здравому смыслу, потому что мы знаем, что железнодорожные вагоны не останавливаются для оплаты дорожных сборов. Во втором предложении все в порядке, хотя трудно определить его значение. Третье предложение - это то, где он срывается с рельсов. Плата за проезд в Нью-Йорке и Нью-Джерси высока, но далеко не до 1000 долларов.

Почему GPT-3 и другие языковые модели ошибаются? Потому что GPT-3, как и вымышленные лютеницы, не имеет здравого смысла в понимании значения входных текстов или текста, который создается. Это просто статистическая модель.

Профессор Нью-Йоркского университета Гэри Маркус написал много статей и провел множество выступлений с критикой интерпретации, согласно которой GPT-2 приобретает здравый смысл и правила рассуждений. По его словам: … при внимательном рассмотрении становится очевидным, что« система не понимает, о чем говорит …». См. Также эту статью New Yorker Magazine, в которой описываются истории, созданные GPT-2 после обучения на обширных архивах журнала.

Заключение

GPT-3 - это изучение статистических свойств совпадения слов. В некоторых случаях GPT-2, вероятно, просто извергает некоторые заученные фрагменты предложений. Когда он получает неверные факты, это происходит потому, что это просто последовательность слов, основанная на статистической вероятности того, что одно слово будет следовать за другим словом.

Отсутствие здравого смысла не делает языковые модели бесполезными. Напротив, они могут быть весьма полезными. Google использует языковые модели в функциях умного ввода в своей системе Gmail. Smart Compose предсказывает следующие слова, которые пользователь наберет, и пользователь может принять их, нажав клавишу TAB.

Однако GPT-3, похоже, не изучает здравый смысл и не учится рассуждать на основе этих знаний. По сути, он не может дать толчок развитию систем AGI, которые применяют здравый смысл к их познанию мира, как люди.

Не стесняйтесь посетить AI Perspectives, где вы можете найти бесплатный онлайн-справочник по ИИ с 15 главами, 400 страницами, 3000 ссылками и без продвинутой математики.

Первоначально опубликовано на https://www.aiperspectives.com 6 июля 2020 г.

GPT-3 не понимает, что говорит

Масштабная языковая модель OpenAI GPT-3 генерирует впечатляющий текст, но тщательный анализ показывает, что все факты неверны.

GPT-3

Проверка фактов

Заключение

Вопросы по теме