Как OpenAI использует GPT-4 для интерпретации нейронов в LLM

Новый метод интерпретируемости, основанный на GPT-4, может дать объяснение конкретным нейронам в LLM.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 150 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:

Последовательность | Хесус Родригес | Substack
Лучший источник информации о разработках в области машинного обучения, искусственного интеллекта и данных…thesequence.substack.com

По мере расширения возможностей и широкого использования языковых моделей остается значительный пробел в знаниях об их внутренней работе. Понимание того, используют ли эти модели предвзятую эвристику или занимаются обманом исключительно на основе своих результатов, может оказаться сложной задачей. В погоне за интерпретируемостью OpenAI углубляется в раскрытие дополнительных сведений, исследуя внутренние механизмы модели. Прямой подход к исследованию интерпретируемости предполагает более глубокое понимание отдельных компонентов модели, таких как нейроны и головы внимания. Традиционно этот процесс предполагал ручную проверку экспертами-людьми для расшифровки характеристик данных, представленных этими компонентами. Однако этот подход к ручной проверке сталкивается с проблемами масштабируемости, особенно при работе с нейронными сетями, содержащими десятки или сотни миллиардов параметров. Недавно OpenAI предложила автоматизированный процесс, который использует возможности GPT-4 для генерации объяснений поведения нейронов на естественном языке и последующей оценки их качества. Затем этот автоматизированный процесс применяется к нейронам в рамках другой языковой модели.

Применяя этот автоматизированный подход к исследованию интерпретируемости, OpenAI стремится преодолеть ограничения ручной проверки, обеспечивая более масштабируемое и всестороннее понимание поведения языковой модели. Использование GPT-4 облегчает создание и оценку объяснений на естественном языке, проливая свет на функционирование и характеристики отдельных нейронов в модели.

Метод

Основная идея метода OpenAI заключалась в том, чтобы масштабировать методы интерпретируемости по всем нейронам в большой языковой модели с целью повышения оценки безопасности модели перед ее развертыванием. Используя GPT-4, OpenAI определяет и количественно измеряет интерпретируемость с помощью «показателя объяснения», который отражает способность языковой модели сжимать и реконструировать активацию нейронов с использованием естественного языка. Количественный характер этой структуры облегчает измерение прогресса в том, чтобы сделать вычисления нейронной сети понятными для людей.

Базовая методология продемонстрировала, что оценки объяснения приближаются к показателям работы человека-подрядчика. Дальнейшие улучшения были достигнуты за счет нескольких подходов:

1. Итерация объяснений путем запроса GPT-4 на создание потенциальных контрпримеров и пересмотр объяснений на основе их активации.

2. Использование более подходящих объяснительных моделей, что привело к более высоким средним баллам, при этом GPT-4 получил самые высокие баллы.

3. Использование более эффективных моделей симулятора для имитации активаций на основе объяснения, что приводит к увеличению среднего балла и согласованию с человеческими сравнениями, при этом GPT-4 снова получает самые высокие баллы.

Предлагаемая методология была применена ко всем нейронам MLP в GPT-2 XL, идентифицировав более 1000 нейронов с объяснениями, набравшими не менее 0,8. Эти нейроны с высокой оценкой, как определено GPT-4, отвечали за большинство активных действий. Используя эти объяснения, OpenAI разработал новые пользовательские интерфейсы для понимания моделей, упрощая быстрый анализ паттернов активации нейронов на конкретных примерах наборов данных и соответствующих им функций.

Архитектура

Подход OpenAI к интерпретируемости включает несколько языковых моделей следующим образом:

· Предметная модель. Это исследуемая модель, требующая интерпретации. Он служит основным фокусом анализа и понимания.

· Объяснительная модель. Чтобы генерировать гипотезы о поведении предметной модели, OpenAI использует объяснительную модель. Модель объяснителя генерирует потенциальные объяснения или гипотезы, которые направлены на то, чтобы пролить свет на работу предметной модели.

· Модель симулятора. Модель симулятора играет решающую роль в процессе интерпретации. Он использует гипотезы, сгенерированные моделью объяснения, и делает прогнозы на основе этих гипотез. Затем прогнозы модели симулятора сравниваются с реальными наблюдениями, чтобы оценить достоверность и качество гипотез. В идеале модель симулятора должна интерпретировать гипотезы в соответствии с тем, как их интерпретировал бы знающий человек.

Используя эту методологию с несколькими языковыми моделями, OpenAI стремится раскрыть и понять поведение предметной модели, обеспечивая более глубокое понимание ее операций и понимание ее процессов принятия решений.

Метод действия

Чтобы получить представление о возможностях метода интерпретации GPT-4, взгляните на три шага, применяемые к сценарию фильма Marvel.

OpenAI выпустила интерактивный инструмент для изучения объяснений нейронов.

Результаты

Подход к интерпретируемости GPT-4 — очень умная идея, но она все еще требует немало работы. Оценка показала, что этот метод не был особенно эффективен с мегабольшими моделями, поскольку они включают много скрытых слоев, которые трудно объяснить.

Несмотря на результаты, кажется, что многие из этих проблем можно решить, включив традиционные методы интерпретируемости ML. Несмотря на это, идея использования LLM для объяснения LLM вызывает интеллектуальное привыкание.