Можем ли мы поставить детектор лжи на ChatGPT?

ChatGPT от OpenAI — это не только мощный инструмент для создания контента, но и потенциальная альтернатива для различных поисковых операций в Интернете, в том числе связанных со сбором или исследованием информации, с эффективностью, а не с точностью и полнотой в качестве основного преимущества. Тем не менее, ChatGPT был создан как доработанная версия крупноязыковой модели диалогов GPT3 с упором на создание выходных данных, имитирующихчеловеческие разговоры. Таким образом, он не отдает приоритет фактам или правдивости в своих выводах, не имеет встроенного механизма проверки фактов, и это проблема для многих случаев использования в бизнесе и академических кругах.

Очевидно, что это важная современная задача для науки о данных, поэтому давайте рассмотрим перспективы — и ограничения — создания механизма обеспечения точности для ИИ-инструмента создания контента, подобного ChatGPT, для решения таких приоритетных задач, как: для бизнеса и академического использования.

Интеллектуальный агент, который может давать правдивые и действенные ответы на вопросы с разной степенью специфичности предметной области, может привести к редко наблюдаемому повышению производительности труда людей. Это может превратить паралич действий, который возникает при попытке оценить результаты поисковой системы, в более увлекательное и человеческое взаимодействие, которое обеспечивает действительно авторитетный и проверенный результат. В идеале эти взаимодействия должны занимать меньше времени, чем наши нынешние стандартные направления исследований, без ущерба для качества информации, что оставляет людям больше времени для выполнения задач с более высокой добавленной стоимостью — или, по крайней мере, снижает риск выгорания. .

Почему ChatGPT склонен к чуши

ChatGPT основан на большой языковой модели GPT3. Эти модели учатся на петабайтах текста, собранного в основном из Интернета. Они узнают, как слова связаны друг с другом, предсказывая следующее слово в текстовой последовательности. Однако в известных сценариях реального мира эта имитация языка не совсем то, для чего люди используют эти модели — скорее, у них есть конкретные вопросы или задачи, на которые они хотят, чтобы модель ответила или выполнила за них. Поэтому можно с уверенностью сказать, что цель языковой модели на самом деле не соответствуетнамерениям пользователя. Исправление этого и согласование языковых моделей для разных задач — новая область исследований в области обработки естественного языка (NLP).

ChatGPT обладает впечатляющими возможностями: от генерации кода до работы в качестве терминала и написания романа, постоянно появляются новые варианты использования. Его предыдущая итерация, InstructGPT, была обучена с целью следовать намерениям пользователей. Однако такая цель может привести к ложному предположению, что то, что хочет пользователь, является правильным.

В классическом примере ChatGPT было легко сбить с толку, попросив его объяснить, почему Марс — самая маленькая планета: все в следующем ответе было неверным, потому что вопрос содержал предположение, что Марс — самая маленькая планета, а ChatGPT предположил, что это правильно — когда на самом деле это не так.

Другая проблема заключается в том, что первоначальная модель была обучена с использованием информации, доступной до сентября 2021 года. Хотя с тех пор были обновления с новыми данными, задержка в отношении информации, вероятно, сохранится в обозримом будущем. Давать постоянно правдивые ответы на вопросы о последних событиях или динамично меняющихся научных областях невозможно без доступа к самым актуальным данным.

У ChatGPT также есть проблемы, связанные с логическими рассуждениями — он склонен делать неверные выводы, когда ему предоставляется набор утверждений. Это может создать проблему, когда пользователю нужны правдивые ответы на более сложные вопросы.

Прецедент, на который мы можем положиться

Поисковая система, такая как Google, работает, создавая индекс веб-сайтов на основе их содержания. Чтобы вручную получить результаты запроса, мы сначала вводим подсказку в движок. Затем возвращается статья, наиболее похожая на приглашение пользователя, при этом также принимается во внимание информация о пользователе, такая как история поиска и местоположение.

Персонализация результатов таким образом может быть реализована для chatGPT. Для поисковых систем это считается более-менее решенной задачей: хранение данных о местоположении и возрасте, а также извлечение тем и настроений как из долгосрочных, так и из краткосрочных поисков помогает адаптировать результаты к потребностям пользователя. Аналогичным образом такую информацию для повышения точности можно извлечь из подсказок, которые мы вводим в chatGPT.

IBM Watson начиналась как система ответов на вопросы, которая, как известно, обыграла двух лучших игроков в Jeopardy! в 2011 году. В Jeopardy! игрокам дается утверждение, и они должны Найдите вопрос, на который это утверждение является ответом. Уотсон обучался на веб-источниках, включая Википедию, и научился извлекать семантические элементы текстов, такие как подлежащее и глагол. Затем, используя эту способность, он нашел решения с оценкой вероятности, основанной на том, сколько надежных источников, собранных людьми, содержат одну и ту же информацию, добавил вариант ответа к предложению и также рассчитал для него оценку вероятности.

Ключевое различие между Watson и chatGPT заключается в том, что первый был обучен для выполнения очень специфической задачи на относительно конкретных данных, а второй представляет собой общую диалоговую систему. Теоретически аналогичные методы можно использовать для системы, подобной ChatGPT, чтобы сделать ее надежным дополнением к широкому кругу задач, выполняемых человеком. У OpenAI даже есть руководство по тонкой настройке ChatGPT для конкретных случаев использования.

Давайте теперь обратимся к вопросу о том, как мы могли бы включить такую модель, как ChatGPT, для проверки достоверности ее вывода.

Возможные исправления

Одним из наивных подходов, позволяющих модели отличать истинную информацию от ложной, было бы обращение к базе знаний фактов и подключение модели к этой базе знаний. Как и в случае с Watson, это может быть совокупность тщательно отобранных источников, таких как Википедия. Однако недостатком этого подхода является то, что поддержание такой базы знаний требует большого количества ручной работы и ограничивает возможности модели информацией, хранящейся в базе знаний. Это также несколько противоречит намерению сократить человеческие усилия за счет интеграции ИИ.

Однако, если компанию интересуют только фактические ответы в определенной области, она может создать эффективную проверку фактов в качестве дополнительного уровня поверх chatGPT. Проверка фактов может быть обучена на статьях из соответствующей области с целью определить, верна ли информация или нет. И когда он обнаруживает ошибку chatGPT, он может исправить или заменить вывод, сгенерировав вывод из своих источников. Обучение такой модели может быть достигнуто с количеством статей, не превышающим относительно разумный диапазон сотен, что делает этот подход приемлемым и для небольших компаний. Именно такой подход использует Got It AI для создания своего Auto ArticleBot.

Другой подход заключается в использовании поисковой системы для получения источников, связанных с подсказкой, из Интернета и использовании возможностей обобщения GPT3 для создания ответа на подсказку. Хотя это будет извлекать только информацию, которая считается достоверной в соответствии с поисковой системой, это решает проблему размещения устаревшей информации. И хотя категория «правды» в соответствии с поисковой системой иногда может вводить в заблуждение, она часто ближе к фактической, полной и актуальной истине, чем всегда предполагать, что пользователь прав, как это делает ChatGPT.

Так работают YouChat by You.com и ChatSonic, поисковые системы с возможностью общения в чате. Однако они все равно ошибались бы, когда им задавали вопрос о Марсе:

You.com успешно нашел два сайта о самой маленькой планете Меркурий — уже улучшение — но полученный текст содержал информацию, далекую от истины. Такие результаты называются «галлюцинациями» в контексте моделей ИИ: вымышленные утверждения, сделанные уверенно. Ответ ChatSonic содержал достоверные факты, но не опровергал неверное предположение пользователя.

Стоимость поиска

Более широкое и критически важное для бизнеса применение такой технологии, как chatGPT, будет зависеть не только от ее способности фильтровать информацию на предмет достоверности и актуальности — она также должна быть жизнеспособной с точки зрения требований к ресурсам. Мы не знаем точных цифр, но, по некоторым оценкам, выполнение подсказок в текущей версии ChatGPT может потребовать в четыре-пять раз больше вычислительных ресурсов, чем выполнение поиска Google. Это огромные затраты, которые сократят прибыль Google на миллиарды, если они будут использовать текущую версию ChatGPT для предоставления поисковых услуг, не говоря уже о том, что это перевернет текущую модель доходов на основе списков и рекламы с ног на голову.

Эта высокая вычислительная стоимость явно является препятствием для широкого и гибкого применения технологии в качестве замены поисковой системы. Продолжаются исследования по похожей теме: уменьшение размера больших нейронных сетей без потери производительности, и за этим стоит следить, так как сжатие ChatGPT обещает стать важным шагом в его развитии.

Держите свои ожидания под контролем

OpenAI, без сомнения, уже работает над решением проблем, связанных с возможностями проверки фактов в chatGPT. Они уже продемонстрировали готовность нанять большую рабочую силу для обучения моделей, поэтому создание базы знаний может стать следующим шагом в качестве промежуточного решения. Первоначально ChatGPT был настроен авторами контента, которые создавали ожидаемые результаты для подсказки и ранжировали различные прогнозы модели, и компания может снова в значительной степени полагаться на человеческую интуицию, чтобы помочь в развитии модели.

Решения и полезный прецедент, которые мы обсуждали выше, в первую очередь улучшат возможности ChatGPT говорить правду в настройках, специфичных для домена. До создания системы, не зависящей от предметной области, с совершенными общими способностями к правдивости, скорее всего, еще далеко. Во-первых, маловероятно, что искусственный интеллект в ближайшее время будет оснащен, чтобы иметь дело с абсолютно любыми логическими или лингвистическими кривыми, которые может бросить ему подлинный человеческий интеллект.

Избегая области научной фантастики, реалистичное краткосрочное решение может включать систему, которая возвращает результаты с прикрепленными вероятностями и ссылками. В такой системе пользователю в конечном итоге придется решать, какой результат принять на основе этой дополнительной информации. Этот рабочий процесс будет аналогичен тому, который в настоящее время используется для беспилотных автомобилей, где для принятия важных решений необходим надзор пользователя.

Если вам нужна помощь во внедрении или улучшении решения для обработки естественного языка, чтобы улучшить ваши аналитические способности и возможности принятия решений, мы в Starschema здесь, чтобы использовать наш опыт в создании дополнений НЛП для компаний из списка Fortune 500 и выше, чтобы помочь вам сделать правильный выбор и получить наибольшую ценность из них. Свяжитесь с нами — мы будем рады поговорить с вами.

Об авторе

Балинт Ковач — специалист по данным в Starschema, специализирующийся на разработке программного обеспечения. Он работал над различными ролями и проектами, в том числе в качестве научного сотрудника и ассистента лектора в ведущем венгерском университете, разработчика глубокого обучения в крупной многонациональной компании и, в настоящее время, в качестве консультанта по обработке данных. Ему нравится погружаться в пользовательские данные, чтобы выявить скрытые идеи и использовать их для создания эффективных прототипов. Свяжитесь с Балинтом в LinkedIn.

ОБРАЩАЙТЕСЬ К STARSCHEMA ЗДЕСЬ:

Поговорим | Starschema
Мы помогаем вашей организации управлять данными.starschema.com

ЧИТАЙТЕ БОЛЬШЕ ИСТОРИЙ ОТ STARSCHEMA:

Научитесь перестать беспокоиться и дополнить свою аналитику
Узнайте, как вы можете использовать расширенную аналитику, чтобы применить ориентированный на человека подход к ИИ, машинному обучению и NLG при решении распространенных…medium.com

8 лучших практик для работы с поставщиком данных в области обработки данных — от специалистов по обработке и анализу данных
Получите практические советы от специалистов по данным Starschema, чтобы оптимизировать рабочие процессы для повышения производительности и результатов… среда.com

Обратите внимание на эти тенденции обработки данных в 2023 году
Узнайте о решениях обработки данных, которые помогут организациям оптимизировать расходы и подготовиться к новым вызовам…medium.com