Мы все слышали о ChatGPT, популярной программе искусственного интеллекта. Мощный искусственный интеллект может дать вам оптимальный ответ на ваш вопрос.

Мы посмотрим, как это работает — его методологию.

О ChatGPT

ChatGPT – это модель чат-бота для большого языка, разработанная OpenAI на основе GPT-3.5. Он обладает замечательной способностью общаться в форме разговорного диалога и давать ответы, которые могут показаться на удивление человеческими.

Большие языковые модели выполняют задачу предсказания следующего слова в последовательности слов.

Обучение с подкреплением с обратной связью от человека (RLHF) — это еще один уровень обучения, в котором используется обратная связь от человека, чтобы помочь ChatGPT научиться способности следовать инструкциям и генерировать ответы, которые удовлетворяют людей.

ChatGPT Creator

ChatGPT был создан компанией OpenAI, занимающейся искусственным интеллектом, из Сан-Франциско. OpenAI Inc. является некоммерческой материнской компанией коммерческой OpenAI LP.

OpenAI известен своей известной DALL·E, моделью глубокого обучения, которая генерирует изображения из текстовых инструкций, называемых подсказками.

Генеральным директором является Сэм Альтман, который ранее был президентом Y Combinator.

Microsoft является партнером и инвестором в размере 1 миллиарда долларов. Они совместно разработали Azure AI Platform.

Модель обучения ChatGPT

GPT-3.5 был обучен на большом количестве кодовых данных и информации из Интернета, включая такие источники, как обсуждения Reddit, чтобы помочь ChatGPT выучить диалог и добиться человеческого стиля ответа.

ChatGPT также обучался с обратной связью с человеком (метод под названием «обучение с подкреплением с обратной связью с человеком»), чтобы ИИ узнал то, что люди ожидали, когда задавали вопрос. Обучение LLM таким образом является революционным, потому что оно выходит за рамки простого обучения LLM предсказанию следующего слова.

В исследовательской работе, опубликованной в марте 2022 года под названием «Лингвистические модели обучения с обратной связью с человеком», объясняется, почему это прорывной подход:

Эта работа мотивирована нашей целью повысить положительное влияние больших языковых моделей, научив их делать то, что от них хочет определенная группа людей.

По умолчанию языковые модели оптимизируются для предсказания следующего слова, что является лишь прокси того, что мы хотим от этих моделей.

Наши результаты показывают, что наши методы обещают сделать языковые модели более полезными, правдивыми и безвредными.

Дополнение языковых моделей само по себе не улучшит их отслеживание намерений пользователя.

Например, большие языковые модели могут генерировать ложные, токсичные или просто бесполезные для пользователя выходные данные.

Другими словами, эти модели не соответствуют их пользователям.

Инженеры, создавшие ChatGPT, наняли подрядчиков (так называемых лейблеров) для оценки выходных данных двух систем, GPT-3 и новой InstructGPT («родственная модель» ChatGPT).

На основании оценки исследователи пришли к следующим выводам:

Ярлыки настоятельно предпочитают выходные данные InstructGPT выходным данным GPT-3.

Модели InstructGPT демонстрируют большую достоверность по сравнению с GPT-3.

InstructGPT показывает небольшое улучшение токсичности по сравнению с GPT-3, но не предвзятость.

В исследовательской работе делается вывод, что результаты для InstructGPT были положительными. Тем не менее, он также отметил, что есть возможности для улучшения.

В целом наши результаты показывают, что точная настройка больших языковых моделей с использованием человеческих предпочтений значительно улучшает их поведение в широком диапазоне задач, хотя еще многое предстоит сделать для повышения их безопасности и надежности.

Что отличает ChatGPT от простого чат-бота, так это то, что он был специально обучен понимать человеческие намерения в вопросе и давать полезные, правдивые и безобидные ответы.

Из-за этого обучения ChatGPT может оспаривать определенные вопросы и отбрасывать части вопроса, которые не имеют смысла.

В другом исследовательском документе, связанном с ChatGPT, показано, как они научили ИИ предсказывать предпочтения людей.

Исследователи заметили, что метрики, используемые для оценки вывода ИИ для обработки естественного языка, привели к тому, что машины получили хорошие оценки по метрикам, но не оправдали ожиданий людей.

Исследователи объяснили проблему следующим образом.

Многие приложения для машинного обучения оптимизируют простые метрики, которые лишь приблизительно отражают то, что задумал разработчик. Это может привести к таким проблемам, как рефералы YouTube, продвигающие кликбейт.

Решение, которое они предложили, заключалось в создании ИИ, который мог бы давать ответы, оптимизированные для того, что предпочитают люди.

Для этого они обучили ИИ, используя наборы данных человеческих сравнений между разными ответами, поэтому машина стала лучше предсказывать, какие ответы люди считают удовлетворительными.

Газета сообщает, что обучение проводилось путем обобщения постов Reddit, а также тестировалось на сводках новостей.

Исследовательская работа за февраль 2022 года называется «Учимся обобщать на основе отзывов людей».

Исследователи пишут

В этой работе мы показываем, что можно значительно улучшить качество сводок, обучив модель оптимизации с учетом предпочтений человека.

Мы собираем большой высококачественный набор данных для сравнения человека и сводки, обучаем модель прогнозировать предпочитаемую человеком сводку и используем эту модель в качестве функции вознаграждения для точной настройки политики суммирования с помощью обучения с подкреплением.

Я надеюсь, что вы найдете эту статью познавательной, и в продолжении этой статьи мы разберемся — Каковы ограничения ChatGPT OpenAI и может ли он заменить Google для автоматического поиска запросов.

Чтобы увидеть больше таких статей, пожалуйста, проголосуйте, подпишитесь и поделитесь этим с друзьями.

Если вы хотите изучить скрипт Google Apps и автоматизировать Google Workspace? обязательно попробуйте эту электронную книгу на тему Скрипт Google Apps: руководство для начинающих».

Приятного обучения 😁✌️

По любым вопросам, связанным с этой статьей, или любыми другими техническими предложениями, вы можете отправить электронное письмо по адресу [email protected].

Повышение уровня кодирования

Спасибо, что являетесь частью нашего сообщества! Перед тем, как ты уйдешь:

  • 👏 Хлопайте за историю и подписывайтесь на автора 👉
  • 📰 Смотрите больше контента в публикации Level Up Coding
  • 🔔 Подписывайтесь на нас: Twitter | ЛинкедИн | "Новостная рассылка"

🚀👉 Присоединяйтесь к коллективу талантов Level Up и найдите прекрасную работу