Как мы проверяем возможности обучения систем искусственного интеллекта?

Доцент CDS Сэм Боуман и доцент CDS Бренден Лейк обсуждают способность большой языковой модели рассуждать в статье для Nature

С момента своего запуска в начале этого года ChatGPT превзошел предыдущие системы искусственного интеллекта, ошеломляя пользователей своей способностью генерировать текст. Обученный невероятно большому количеству языков, почерпнутых из различных интернет-источников, чат-бот создает постоянный поток разговоров, эссе и даже книг, которые часто неотличимы от человеческого письма. Хотя, с одной стороны, модель большого языка (LLM) может превосходно тестировать машинный интеллект, исследование The ConceptARC Benchmark: Evaluating понимание и обобщение в области ARC, опубликованное в мае этого года в журнале Transactions on Machine Learning Research (TMLR), показало, что программу искусственного интеллекта легко поставить в тупик из-за простых задач визуальной логики.

Тест, известный как ConceptARC, представляет на экране серию цветных блоков, на которые большинство людей могут смотреть и выделять соединяющие закономерности. При тестировании GPT-4 (работает LLM Chat GPT) правильно определил одну треть головоломок в одной категории шаблонов и только 3% головоломок в другой. Хотя результаты исследования могут добавить новое измерение к способности GPT-4 рассуждать с помощью абстрактных концепций, исследователи ИИ отмечают одну из основных проблем: ConceptARC — это тест визуального чтения, преобразованный в текст для обработки GPT-4, что делает тест более сложная задача для LLM. Исследование поднимает важные вопросы о том, как модели ИИ следует тестировать на интеллект в будущем.

В недавней статье журнала Nature ChatGPT сломал тест Тьюринга — идет гонка за новыми способами оценки ИИ объясняется, что среди исследователей ИИ сформировались два противоположных мнения о том, как функционируют эти LLM. Хотя некоторые объясняют достижения модели способностью рассуждать, другие с этим не согласны. Неубедительные доказательства с обеих сторон, а также новизна технологии привели к расколу.

Эти системы определенно не настолько надежны и универсальны, как нам хотелось бы, и, вероятно, существуют некоторые конкретные навыки абстрактного мышления, с которыми они до сих пор совершенно не справляются, — сказал доцент CDS по лингвистике, науке о данных и информатике. Сэм Боуман» для Nature. Но я думаю, что базовые возможности есть.

С чем может согласиться большинство, так это за логическими головоломками, такими как исследование TMLR, которые показывают различия между возможностями человека и ИИ, — это будущее тестирования машинного интеллекта. В статье для Nature Боуман вместе с доцентом кафедры психологии и науки о данных CDS Бренденом Лейком и другими исследователями ИИ обсуждают некоторые проблемы, с которыми сталкиваются текущие тесты ИИ, предлагая создание открытой, нерешенной проблемы как лучший вариант. альтернатива проверке рассуждений LLM.

Чтобы узнать больше, прочтите статью ChatGPT преодолел тест Тьюринга — идет гонка за новыми способами оценки ИИ.

Мерил Фейр

Как мы проверяем возможности обучения систем искусственного интеллекта?

Вопросы по теме