Тестирование ChatGPT по математике

ChatGPT, «чат-бот, работающий на современной языковой модели, обученной OpenAI. Он разработан, чтобы помочь пользователям вести естественные, человеческие разговоры по широкому кругу тем. Поскольку он основан на мощной языковой модели, он может понимать и отвечать на множество различных типов вопросов и утверждений, а также может помочь пользователям с такими задачами, как ответы на вопросы, предоставление информации и даже участие в светской беседе».

Это было определение, сгенерированное самим чат-ботом. Итак, при таком понимании и с учетом того, что искусственный интеллект является ключевой темой во многих, если не во всех отраслях, этот чат-бот должен быть проверен на то, что он может и чего не может.

Прежде чем я продолжу, нужно понять, что это большая языковая модель, в которой был передан довольно большой набор текстовых данных, и с использованием обработки естественного языка и глубокого обучения был создан бот, чтобы отвечать на запросы на основе его «изучения» обучающих данных. .

Это так и осталось бы академическим проектом с большими инвестициями и исследованиями для понимания искусственного интеллекта, но, по словам Сэма Альтмана из OpenAI, «скоро у вас будут полезные помощники, которые будут разговаривать с вами, отвечать на вопросы. , и давать советы.” Поэтому общедоступную бета-версию необходимо протестировать, чтобы проверить ее способность заменить существующее разнообразие чат-ботов во многих компаниях, ее понимание разговоров, точность ее ответов. и, что более важно, его ограничения.

Тестирование модели НЛП само по себе непростая задача, а такая, как OpenAI, возможно, самая крупная, гораздо сложнее. Не вдаваясь в методологию подхода к тестированию искусственного интеллекта, в этом блоге будет изучен один аспект ChatGPT, который необходимо освоить для любой значимой коммерческой реализации.

Математика и GPT:

Нужно начать с предостережения, что ChatGPT может выполнять только простую математику. Однако он утверждает, что может поддерживать вероятность и статистику. Следовательно, я не беспокоил его исчислением, сложной линейной алгеброй и другой продвинутой математикой.

Вместо этого я ограничил тестирование понимания ChatGPT некоторых основных строительных блоков математики и некоторых числовых задач, которые являются более логичными и немного математическими.

Почему это важно?

OpenAI использовал обучение с подкреплением на основе отзывов людей для создания ChatGPT. Проще говоря, это означает, что модель была обучена с помощью людей, которые «обучили» модель желаемым результатам, и на основе этого модель научилась.

В отличие от прозы или языка, математика объективна. Хотя подход может быть творческим, он всегда должен быть логичным. Читая и «изучая» большой том поэзии, можно придумать множество стихов, но это относится к области творчества, не поддающейся объективной оценке. Однако «обучение» математике — это другое. Нужно применять полученные знания при решении различных наборов задач. Именно здесь оценка обучения модели становится проще, потому что большая часть математики объективна. Выбор математики в качестве теста означает, по сути, проверку способности ChatGPT «учиться», а не того, что он выучил.
В коммерческих приложениях обсуждения с чат-ботом будут включать обсуждение денег — что человек должен, что он должен заплатить, варианты, частота, штрафы, окупаемость, возмещение и другие типы транзакций, которые связаны с деньгами. Другими словами, математические вычисления. Таким образом, чат-бот должен быть более умным, чем просто читать часто задаваемые вопросы и обучаться нескольким наборам вопросов.
Обратная связь — ChatGPT — экспоненциальное достижение. Однако по сравнению с «интеллектом», как мы его понимаем, он находится в зачаточном состоянии. Лично я бы не стал использовать слово «интеллект» для описания каких-либо текущих реализаций ИИ. Только конструктивная и объективная обратная связь о том, что мы ожидаем от чат-бота, может помочь построить следующую итерацию ChatGPT, которая снова будет экспоненциальным ростом.

Я начал с понимания чисел GPT.

Сразу же GPT не смог ответить на основы чисел. Он подумал, что натуральные числа могут быть меньше нуля, и привел пример. Но натуральные числа от 1 до бесконечности и не содержат отрицательных чисел.

Как насчет простых чисел? GPT считал, что 0 — это простое число.

Но он знал список простых чисел и правильно делал основное деление. Но проблема осталась с его пониманием «целого числа». Опять же, он потерпел неудачу в фундаментальном строительном блоке математики.

Я не тестировал GPT на дроби, так как знал, что GPT не «выучил» математику так, как этому учат детей.

Похоже, есть большая проблема с GPT и десятичными знаками. Когда я смешивал десятичные дроби со сложением, GPT в большинстве случаев давал сбои. Он правильно добавил одно число с десятичным числом и одно без него. В других случаях это был подбрасывание монеты, в основном с уклоном в сторону неудачи.

Как насчет сравнения чисел? Может ли GPT разместить число? Меньше, больше, равные и т. д. В нынешнем виде в некоторых сценариях это не сработало. Он действительно понял большинство вещей правильно. Но когда кто-то манипулирует числами, кратными 100, 1000, 10000 и т. д., это не удается. Это потому, что он не понимал десятичных систем?

Итак, экстраполируя это, я попытался выяснить, есть ли в GPT проблема с пониманием степеней 10. Так и случилось. Он получил правильные числа, но неправильное английское слово.

Как видите, на прямой и объективный вопрос он давал разные ответы.

Это процессор естественного языка, и язык должен быть его сильной стороной. Как насчет простой математической задачи, описанной словами? Здесь тоже GPT не удалось. В то время как это было наиболее правильно, оно потерпело неудачу в нескольких тестах. Проблема либо в том, как он понимает проблему, либо в том, как он вычисляет решение. Мы пока не знаем.

Следующим тестом было умножение. ChatGPT правильно понял простое умножение целых чисел. Но при смешивании с десятичными знаками это не удалось. Другая область, где это не удалось, — это когда я смешивал несколько операторов. Сначала ответ был неверным. Но когда я заставил его сделать что-то другое, он получил правильный ответ, но также с объяснением PEMDAS.

Неправильно, глупо и впечатляюще одновременно.

Но, как видите, если вы наберете то же самое в Python, вы получите правильный ответ. Но когда я заставил ChatGPT не использовать Python, ответ был правильным. ChatGPT «выучил» Python неправильно или использует другой метод для вычислений? Мы бы не знали.

Другое дело, что ChatGPT не знает, чего он не знает. Я попытался попросить его найти следующее число в последовательности. Он отказался, заявив, что это языковая модель и он не сможет выполнять последовательность. Это достаточно справедливо.

Но когда задавали один и тот же вопрос с разными наборами чисел, он прыгал, чтобы дать вам ответ вместе с логикой. Впечатляет, что он дал логику, но также и провал, потому что он не знал, может ли он выполнять последовательность или нет.

Задачи Word и ChatGPT:

Поскольку это языковая модель, я пытался задавать простые математические вопросы словами. Для большой языковой модели возникает проблема понимания. В первом примере, когда я спросил об «телефоне Apple», он подумал, что это утверждение двусмысленно, поскольку «яблоко» может быть телефоном или фруктом. Если бы я не указал «телефон», это было бы весьма впечатляюще.

Этот тест должен был обмануть языковую модель, смешав два совершенно разных элемента, и результат был неоднозначным. Он смог определить, что «яблоко» может означать фрукты или компанию, но это не удалось, когда к Apple добавили суффикс «телефон». Это должно было сузить его до компании.

Тогда я сделал это однозначно. Я хотел сравнить iPod и iPad. Они много знали о характеристиках iPad и рынке в целом, но не понимали контекста вопроса.

Тогда я был конкретен.

Затем я сузил его.

Должно быть ясно, что модель не может вычислить ответ.

Как насчет еще одного примера на словах? Опять же, он не смог решить проблему, но понял ее правильно.

Круглый колышек в квадратном отверстии

Еще одна интересная задача, которую я дал, включала вариант круглого стержня и квадратного отверстия. Спрашивали по-разному, правильно ответить не удалось. Но, наконец, я смог понять, что происходит не так. Это вычисляло абсолютную площадь, если вы давали круг и квадрат, и абсолютный объем, если вы давали цилиндр и куб. Таким образом, он сравнивал общую площадь с площадью или объем с объемом и отвечал, действительно ли одно можно вписать в другое.

Изучение продвинутой математики:

То, что модель сказала мне, что она не будет заниматься продвинутой математикой, не помешало ей попытаться это сделать и отстаивать свои позиции в ответах. Взгляните на квадратное уравнение, что оно неправильно.

Проблема здесь не только в том, чтобы понять что-то правильно или неправильно, но и в том, насколько настойчиво это было, когда снова спросили о решении.

Также возникла проблема с базовой комбинацией умножения/сложения.

У него есть логика для правильного вычисления матричного умножения и шаги, как это сделать правильно. Это было впечатляюще. Но он ошибся в расчетах.

Понимание:

Я задал ChatGPT простой вопрос о страховом полисе, срок действия которого истекает через 5 месяцев. Он не правильно понял мое заявление. Он понял, как будто срок действия моей политики истек и не активен.

Заключение:

В коммерческих приложениях ожидается, что чат-бот будет отвечать на наиболее распространенные вопросы, а также действовать так, как если бы человек взаимодействовал с клиентом. Для языковой модели нам тем более важно знать, сможет ли она правильно понять клиента. Именно там случайным образом произошел сбой ChatGPT. Будь то словесные задачи или слова с какой-то логикой, она не срабатывала в разной степени и частоте, причины которой остаются неизвестными.

На веб-странице OpenAI четко указано, на что способен этот ChatGPT. По их собственным словам, Формат диалога позволяет ChatGPT отвечать на дополнительные вопросы, признавать свои ошибки, оспаривать неверные предпосылки и отклонять неуместные запросы.».

В некоторых приведенных выше примерах он не признал свою ошибку, оспаривал правильные предпосылки и обрабатывал неуместные запросы, которые не мог или не должен был обрабатывать.

Основой моих тестов была математика по причинам, о которых я говорил ранее. На примерах, на которых я тестировал ChatGPT, он не справлялся с базовой математикой. Но также важно понимать, что на примерах он научился выполнять определенные арифметические операции. Но ограничений предостаточно. Все начинается с непонимания основных числовых типов.

Чтобы назвать OpenAI, просто сопоставление с образцом — это медвежья услуга по сравнению с объемом работы, затраченным на создание впечатляющего чат-бота. Но, по своей сути, модель обучалась на примерах, ее подпитывали, а также с вмешательством или подкреплением человека. Очевидно, что реальная жизнь сложнее, намного сложнее, чем примеры, и нельзя просто применить ту же логику к примерам.

Также загадкой является то, что искусственный интеллект плохо справляется с тем, в чем хороши современные компьютеры, — с математикой. Разница заключается в том, как они построены. Современные компьютеры проинструктированы делать что-то. Им даны правила, алгоритмы, шаги, и они жестко связаны тем, что они могут сделать. С другой стороны, ИИ должен «учиться».

Обучение — это абстрактное понятие. Мы до сих пор не поняли, как мы «учимся» вещам. Мы можем предоставить больше данных и больше примеров и предположить, что модель, какой бы сложной она ни была, синтезирует логику из примеров. Обучение также является постепенным. Вот почему мы не учим элементарных детей сначала уравнениям в частных производных. Мы строим к этому.

ChatGPT — это экспоненциальное изменение. Это также не начало в некоторых из основополагающих столпов обучения. Именно эта дихотомия будет стимулировать исследования, а также ограничивать коммерческое внедрение.

Мы далеки от создания машины, «умной» в классическом смысле, но мы должны быть в состоянии сузить область того, что мы хотим, чтобы конкретная машина делала, и стать в этом лучшим.

Тестирование ChatGPT по математике — Can ChatGPT