Увлекательное путешествие, чтобы проверить ограничения ChatGPT в контексте рекомендаций

Недавно я провел некоторое время с нашим любимым повелителем ИИ ChatGPT (шучу!), исследуя модель и расширяя ее возможности. Я протестировал его на примере рекомендации фильмов. Видео прохождение вы можете найти здесь.

Монолитные LLM с миллиардами параметров, настроенные с помощью RLHF, навсегда изменили наше восприятие AGI. Появление ChatGPT, GPT-3.5 и GPT-4 продемонстрировало, насколько расширились горизонты способностей и навыков языковых моделей за последние несколько месяцев. ChatGPT достигает 100 миллионов пользователей всего за два месяца после запуска — свидетельство того, насколько впечатляющим был скачок в области ИИ.

Рекомендация фильмов с ChatGPT

Так много людей творчески используют ChatGPT, от создания Flappy birds с нуля до создания веб-сайтов. Следуя этой тенденции, я решил посмотреть, может ли ChatGPT вычислять пользовательские рейтинги непросмотренного фильма с учетом набора данных. Сначала я попросил ChatGPT сгенерировать набор данных.

Мы быстро отреагировали и сгенерировали набор данных, как объяснено в контексте.

Я попрошу ChatGPT,

Предсказать пользовательский рейтинг Джека к фильму Мстители

Я надеюсь, что ChatGPT использует для этого метод совместной фильтрации. Сначала можно создать матрицу оценок, использовать матрицу оценок для вычисления сходства пользователей с Джеком. И наконец,

Обратите внимание, что я игнорирую пользователей с рейтингом 0 для «Мстителей» при подсчете очков. На следующем листе Excel показаны эти вычисления. Окончательный ответ, который мы ищем, равен 9.

Далее я поставил вопрос следующим образом.

Похоже, ChatGPT считает, что это должна быть точка данных, которая в настоящее время отсутствует в наборе данных. Я также пробовал использовать трюк Давайте думать шаг за шагом. Но это не очень далеко продвинуло ChatGPT.

Затем я попытался использовать цепочку рассуждений, чтобы сформулировать подход, которому нужно следовать, чтобы вычислить окончательный результат.

Успех! На этот раз ChatGPT смог следовать плану, сгенерировать промежуточные результаты и вычислить окончательный ответ.

Но подождите секунду! Окончательный результат неверный.

Проблема 1: ChatGPT завалил математику (потенциально) из-за сложности задачи

Похоже, ChatGPT неправильно определил окончательный результат. Если вы скопируете и вставите уравнение из строки 2 последнего шага в калькулятор, вы получите 9, а не 8,95. Более того, неудивительно, что косинусные расстояния тоже неверны. Но все равно впечатляет то, что смог сделать ChatGPT, будучи языковой моделью. Давайте не будем сомневаться и попробуем показать, где накосячил ChatGPT.

К сожалению, ChatGPT не смог это увидеть. Вот фрагмент нового ответа.

Мне не удалось заставить ChatGPT исправить ошибку. Но он продолжал признавать, что допустил ошибку, что несколько парадоксально. Это подводит нас ко 2-й проблеме.

Проблема №2: ChatGPT подхалим

ChatGPT довольно подхалимский и будет думать, что это неправильно каждый раз, когда вы указываете, что это неправильно. Как ни странно, он даже думает, что это неправильно, когда у него есть под рукой правильное решение 😅.

Здесь [0, 10, 0, 8] — фактический вектор. Но ChatGPT думает, что это неправильно, и галлюцинирует что-то еще, чтобы выбраться из затруднительного положения, в котором он оказался. Это почти как чат Bing — злой брат ChatGPT.

После небольшого разговора взад и вперед я хотел проверить объем памяти / внимания ChatGPT. Поэтому я спросил,

на что ChatGPT сказал,

О-о! Если вернуться к первому осмысленному ответу ChatGPT, матрица рейтинга изменилась. Введите одну из самых неприятных проблем с LLM.

Проблема №3: ​​ChatGPT галлюцинирует

Внедрение ChatGPT оживило научное сообщество, породив философию вокруг ChatGPT; от повышения производительности до захвата мира. Одной из идей является ChatGPT как изменение парадигмы в компьютерных программах. На протяжении всей истории компьютерная программа, которую мы знаем и любим, представляет собой детерминированный набор конкретных инструкций, следуя которым мы можем достичь желаемого результата. ChatGPT похож на компьютерную программу, но позволяет пользователям общаться, используя естественный язык, а не инструкции с синтаксисом.

Однако если переменная выходит из контекста в компьютерной программе, это явная ошибка. Но с LLM они просто придумывают что-то, чтобы заполнить пробелы. В некоторых случаях это может стать препятствием для сделки. Представьте, что вы пытаетесь устранить ошибку выставления счетов с помощью ChatGPT, а ChatGPT галлюцинирует ошибку входа. Это будет очень запутанным опытом для пользователя.

Вы можете найти видеопрохождение моего приключения ниже.

Новые границы

Просто потому, что у ChatGPT есть некоторые проблемы, это не конец света! Я до сих пор впечатлен тем, насколько лучше ChatGPT по сравнению с GPT-3 только для предварительной подготовки. Так что эти модели будут только лучше.

У нас уже есть GPT-4 анонсированный с листом ожидания. Технический отчет уже подает большие надежды с потрясающим повышением производительности. Например, в задачах по математике для начальной школы GPT-3.5 достигает 57,1%, тогда как GPT-4 устанавливает планку на уровне 92%. Более того, GPT-4 сообщает о гораздо лучших возможностях поиска фактов и меньшем количестве галлюцинаций, чем ChatGPT.

Если вам интересно увидеть GPT-4 и ChatGPT рядом с качественным объективом, рекомендую это видео.

Еще одна разработка — недавно представленная модель, способная давать рекомендации на естественном языке. Эта модель называется P5 и показывает отличные результаты, не уступая современным моделям. Например, P5 превосходит Bert4Rec и SASRec в рекомендациях по последовательной передаче данных.

Заключение

ChatGPT определенно не лишен недостатков. Например, ChatGPT не справлялся с простыми арифметическими операциями, демонстрировал подхалимское поведение и галлюцинации во время этого упражнения. Но это только начало. Преемник ChatGPT, GPT-4, продемонстрировал некоторые замечательные улучшения по сравнению с ChatGPT. Более того, исследователи находят новые способы использования естественного языка для решения новых проблем, таких как рекомендации.

Если не указано иное, все изображения принадлежат автору