OPT на входе GPT-3 на выходе

3 мая 2022 года Meta AI анонсировала новую модель большого языка (LLM) Open Pretrained Transformer (OPT-175B). В этом посте мы поговорим о том, как OPT установила эталон воспроизводимости в области машинного обучения, особенно для обработки естественного языка (NLP).

Как обстоят дела с воспроизводимостью?

Доступность тесно связана с проблемами воспроизводимости. Если у вас есть доступ к информации о методологии, вы можете воспроизвести эксперимент. Почему воспроизводимость так важна? Давайте подойдем к этому вопросу с более широкой точки зрения и вернемся в прошлое. Примерно в XVI веке Homo sapiens серьезно изменили свой подход к знаниям. Вместо того чтобы предполагать, что информация верна, sapiens начали использовать научный метод формулирования гипотез, проведения экспериментов, анализа результатов и выводов. В течение последних нескольких столетий ученые использовали этот процесс для построения нашего коллективного понимания мира природы и законов, которые им управляют. Мы добились огромного прогресса в технологиях, сосредоточившись на прозрачности и воспроизводимости научных результатов. (Следует отметить, что качественные методологии не обязательно должны давать воспроизводимые результаты. Да, качественные методы по-прежнему сильны).

Несмотря на то, что воспроизводимость является основополагающим соображением количественной научной методологии, опрос, проведенный в журнале Nature в 2016 году, показал, что более 70 % исследователей потерпели неудачу в своих попытках воспроизвести эксперименты другого исследователя, а более 50 % не смогли этого сделать. воспроизвести один из собственных экспериментов (Pineau et al., 2021; Baker, 2016).

Это серьезная проблема. Оценка достоверности исследовательских утверждений является центральной, непрерывной и трудоемкой частью научного процесса (Alipourfard et al., 2021). Если научное открытие невозможно воспроизвести, оно нарушает основную предпосылку научного подхода. Джоэль Пино и др. (2021) заявляют, что одной из проблем в исследованиях машинного обучения является обеспечение достоверности и надежности представленных и опубликованных результатов. (Примечание: Джоэль Пино — соуправляющий директор Facebook AI Research и доцент Университета Макгилла. Она сыграла свою роль в обеспечении доступности OPT.)

К сожалению, академические статьи не всегда дают воспроизводимые результаты из-за таких проблем, как пропущенные шаги или отсутствие информации об их методологии. Как Data Scientist, я также много раз сталкивался с проблемой воспроизводимости при чтении статей по машинному обучению.

GPT-3 и проблемы воспроизводимости

Когда мы говорим о проблемах воспроизводимости, у нас есть слон в комнате, GPT-3. В течение почти двух лет OpenAI давала отрывочные объяснения, почему модель не была общедоступной. Что касается GPT-3, OpenAI однажды сказал, что это слишком опасно, чтобы обнародовать. Meta AI явно считает, что безопасность не должна быть проблемой до такой степени, что вы держите модель вне досягаемости. Прочитав сообщение в блоге Meta об OPT-175B, мы видим, что можно сделать LLM общедоступным, неся при этом ответственность, если вы будете тщательно выполнять свою домашнюю работу.

Какое место у Meta AI в плане доступности с помощью OPT?

  • Команда Meta AI позаботилась о том, чтобы сделать модель OPT общедоступной. Они использовали рекомендации для Ответственного ИИ. Я знаю, что Facebook и ответственность не ладят, но мы здесь. Добро пожаловать в 2022 год!
  • Команда OPT тесно сотрудничает с Hugging Face. OPT было объявлено 3 мая. В настоящее время на Hugging Face доступно шесть моделей: параметры 125M, 350M, 1.3B, 2.7B, 6.7B и 30B к 11 мая. Параметр 175B доступен через приложение. Стивен Роллер, второй автор статьи OPT, сотрудничает с командой Hugging Face, чтобы сделать разнообразные модели OPT легкодоступными.
  • Команда OPT (включая авторов OPT paper) активна и быстро отвечает на проблемы Github.
  • OPT прошел обучение на общедоступных наборах данных, чтобы обеспечить более активное участие сообщества в понимании этой основополагающей новой технологии.

Текущие проблемы доступности с OPT

  • Согласно официальному руководству, для OPT требуется графический процессор A100 80 ГБ. Это огромный барьер доступности для пользователей.
  • В настоящее время он работает только в облачных службах Azure (на основе официального руководства). При установке OPT на свой локальный компьютер я увидел, что у OPT есть инфраструктура для AWS. Я верю, что мы увидим интеграцию OPT с другими платформами облачных вычислений.
  • Различные проблемы с установкой. Например, он не работал с Python 3.10.2, потому что требуемая версия torch (1.10.2) не поддерживается в Python 3.10.2.
  • Metaseq — это кодовая база для работы с OPT. К сожалению, Metaseq общеизвестно недружелюбен, как выразился Стивен Роллер.

OPT — захватывающая модель большого языка. Как только он станет более удобным для пользователя, он изменит правила игры в области НЛП. В этом посте мы хотели поделиться нашим первым впечатлением об аспекте доступности языковой модели OPT. Мы надеемся, что после шумихи вокруг GPT-3 и невозможности получить к ней доступ, OPT принесет новое понимание разработки больших языковых моделей. После того, как интеграция библиотек Hugging Face и Transformers будет завершена, у нас будет возможность поэкспериментировать с ней и снова поделиться своим опытом здесь!
редактировать: 12 мая различные модели OPT стали доступны через библиотеку Transformers)

Энес Гёкче — Специалист по обработке и анализу данных НЛП

Мехмет Эмре Сенел — Bogazici University Computer Science

Спасибо Мел Медер за корректуру статьи

Ссылки:

Алипурфар, Н., Арендт, Б., Бенджамин, Д.М., Бенклер, Н., Бишоп, М., Бурштейн, М., … и Ву, Дж. (2021). Систематизация доверия к открытым исследованиям и доказательствам (оценка).

Бейкер, М. (2016). 1500 ученых поднимают крышку воспроизводимости. Природа, 533(7604).

Пино, Дж., Винсент-Ламар, П., Синха, К., Ларивьер, В., Бейгельзимер, А., д’Альше-Бук, Ф., … и Ларошель, Х. (2021). Улучшение воспроизводимости в исследованиях машинного обучения: отчет о программе воспроизводимости NeurIPS 2019. Journal of Machine Learning Research, 22.