Насколько хорошо ChatGPT играет в шахматы? (Спойлер: вы будете впечатлены)

ChatGPT — это новый ИИ, разработанный OpenAI, который недавно привлек к себе внимание и шумиху. ChatGPT — это большая языковая модель. Но насколько хорошо ChatGPT играет в шахматы? В этой статье мы рассмотрим его возможности и оценим его производительность, эмулируя тренировку по игре в шахматы с помощью ChatGPT.

Приветствуются шахматисты любого уровня — требуется лишь небольшое знание правил.

Спойлер: для языковой модели это удивительно страшно.

Сессия 1. Открытие. друг ученого

Наша первая сессия будет посвящена напарнику Шолара. Это один из самых простых матов в шахматах, которому обычно учат, когда вы начинаете учиться шахматам.

Хорошо. Все идет нормально. Хотя странно, ChatGPT говорит, что 3… d6 — единственный ход. Нетрудно заметить, что также работают 3… Фe7, 3… Фf6, 3… d5, 3… Кh6 и т. д. Давайте продолжим нашу сессию, спросив о других защитных действиях.

Итак, есть пара моментов, на которых я хочу остановиться. Конечно, неверно, что 3... Qe7 не предотвращает мат.

Но обратите внимание, как он переключился с (3…) хода черных на (4.) ход белых. Утверждение 3... g6 - сильнейший ход правильно и, вероятно, взято откуда-то из шахматной литературы.

Весьма впечатляет, что языковая модель (а не шахматный движок) может вычислить, что 4… Qxf7 приводит к взятию белого ферзя. И довольно впечатляющий ChatGPT следует за легальным взятием ферзя слоном (хотя это все еще не прямой и не ведущий к мату).

Ага! Таким образом, кажется, что возможности «чата» — понимание контекста предыдущего текста — работают нормально, и объяснение имеет смысл, но это 5-й ход, а не 4-й. Остальной текст имеет смысл; удивительно, но многочисленные проверки на плагиат показывают, что он уникален.

Продолжим «анализировать» полученную позицию.

Хорошо, ChatGPT, кажется, бросает мяч (шахматную фигуру?), обсуждая позиции, полученные от одного намерения чата к другому. Много общего текста по-прежнему вполне правильно. Довольно интересно, что 2/3 ходов также допустимы. Можем ли мы понять, почему модель считает Bg5 правильным ходом?

Чем глубже в игру, тем меньше смысла имеют ответы. Хотя там правильно указано, что это шестой ход черных (6... h6), говорить о связках неправильно. На самом деле фраза «двигаться, не попав в плен» довольно «нечесная». Ссылка ФИДЕ также немного вводит в заблуждение, поскольку я спрашивал о правомерности хода Bg5, если пешка (e2) находится в своей начальной позиции, а не в начальной позиции.

Последний вопрос, который следует задать относительно позиции, связан с ее оценкой. Неудивительно, что «оценка» ChatGPT совершенно неверна, поскольку это всего лишь языковая модель. Несмотря на некоторые ошибки, впечатляет, как языковая модель может работать в шахматном дебюте.

Сессия 2. Миддлшпиль

Как насчет того, чтобы спросить языковую модель, может ли она сгенерировать шахматную партию? Он может генерировать текст, код и т. д. Почему бы не случайную партию в шахматы?

Довольно впечатляющий. Но после проверки правильности 12. Лxe7 не годится. Может это просто опечатка?

Жуткий! Честно говоря, мне пришлось дважды моргнуть, прежде чем я начал верить полученному ответу.

Сейчас миттельшпиль. Давайте зададим несколько вопросов относительно позиции, которую мы получили.

Довольно сложно найти корреляцию между позициями. Может быть, в ChatGPT нет информации о том, что такое пин?

Мы сломали ChatGPT.

Но даже если оно и давало какой-то ответ, становилось совершенно очевидным, что оно использовало общие знания, не соотнося их с конкретной позицией.

В какой-то момент я поймал себя на том, что забыл, что ChatGPT — не шахматный движок…

Сессия 3. Финал

Последняя сессия будет посвящена очень простому эндшпилю.

Похоже, ChatGPT не смог расшифровать конечную позицию, которую мы описали. Давайте сделаем это более простым.

Позиция довольно проста. Никакие ходы недействительны, если белые ходят — это пат. Если очередь хода черных — простой мат-в-один может быть достигнут 4 разными способами.

Было бы довольно наивно ожидать, что такие знания можно получить из языковой модели. Но все же впечатляет то, что модель предлагает ход на 1 клетку для белого короля (хотя и недопустимый) и допустимый ход для черного ферзя.

Заключение

Хотя ChatGPT — мощная языковая модель, он не может играть в шахматы. Это связано с тем, что ChatGPT представляет собой текстовую модель и не имеет возможности понимать или интерпретировать визуальную информацию, как настольная игра. Кроме того, игра в шахматы требует высокого уровня стратегического мышления и принятия решений, что выходит за рамки возможностей ChatGPT.

Хотя ChatGPT может генерировать текст, описывающий шахматные ходы или стратегии, он не приспособлен для реальной игры.

Честно говоря, когда я начинал этот эксперимент, у меня было гораздо меньше ожиданий. На протяжении всего процесса у меня был отличный опыт чата/разговора с ChatGPT, который прерывал повествовательную цепочку только один или два раза.

С точки зрения машинного обучения результат очень солидный. В шахматном плане результаты все же лучше, чем ожидалось.

Но в этом загвоздка. Зловещая долина может существовать и для моделей машинного обучения. И когда мы рассмотрим использование языковых моделей для генерации знаний, можно не осознавать ошибки, которые делает модель, поскольку большая часть сгенерированного контента кажется правильной.

Насколько хорошо ChatGPT играет в шахматы? (Спойлер: вы будете впечатлены)

Сессия 1. Открытие. друг ученого

Сессия 2. Миддлшпиль

Сессия 3. Финал

Заключение

Вопросы по теме