Что такое обучение с подкреплением?

Другая категория неконтролируемого обучения связана с обучением с подкреплением. Обучение с подкреплением — это область машинного обучения, связанная с тем, как системы машинного обучения должны действовать в среде, чтобы максимизировать конкретный результат. Люди обучают систему (представьте себе хорошую собаку, плохую собаку) с положительным или отрицательным вознаграждением (по сути, числовым значением), когда оно правильное или неправильное.

Reinforcement Learning with Human Feedback (RLHF) — это дополнительный уровень обучения, в котором используется человеческая обратная связь, чтобы помочь системам искусственного интеллекта, таким как ChatGPT, изучить способность следовать указаниям и генерировать ответы, которые удовлетворяют людей. И, как мы увидим, RLHF — важный уровень, гарантирующий, что все не пойдет не так, как надо.

Пример из прошлого: чат-бот Microsoft, Тай

Так что до ChatGPT вы, возможно, были знакомы с чат-ботом, выпущенным Microsoft несколько лет назад, под названием Tay. Как сообщил Verge, Твиттеру потребовалось менее 24 часов, чтобы испортить невинный чат-бот с искусственным интеллектом. Microsoft описала Tay как эксперимент по разговорному пониманию. По словам Microsoft, чем больше вы общаетесь с Таем, тем умнее он становится, учась привлекать людей через непринужденную и игривую беседу.

К сожалению, шутливые разговоры длились недолго. Вскоре после запуска Tay люди начали обучать и подкреплять бота всевозможными женоненавистническими, расистскими и политически предвзятыми высказываниями. И Тай начал повторять эти чувства пользователям.

В этом примере все пошло не так хорошо, потому что публика на самом деле научила ее быть менее чем благоприятной, и в итоге она узнала много расистских и неприятных ответов.

Извлеченный урок заключается в том, что обучение с подкреплением — это действительно очень мощный инструмент, но важно, чтобы человек был в курсе, чтобы агент мог правильно изучить свою среду до развертывания в рабочей среде. Развертывание агента без какого-либо ручного вмешательства может быть действительно пугающим и часто неразумным.

Текущий пример: ChatGPT

Большая тема сегодня, конечно, ChatGPT. Когда даже ваши бабушки и дедушки, не разбирающиеся в технических вопросах, ссылаются на ChatGPT, вы знаете, что ИИ действительно вошел в популярный лексикон. Как и Tay, ChatGPT также использует обучение с подкреплением. И вы можете спросить, как они смягчают (или, по крайней мере, пытаются смягчить) те же подводные камни, которые привели к кончине Тэя? Отличный вопрос.

ChatGPT — это чат-бот с большой языковой моделью, разработанный OpenAI на основе GPT-3.5. У него замечательная способность взаимодействовать в форме разговорного диалога, и он может давать ответы, которые кажутся удивительно человеческими.

Как проходило обучение ChatGPT?

GPT-3.5 был обучен на огромном количестве данных о коде и информации из Интернета, включая такие источники, как обсуждения Reddit, чтобы помочь ChatGPT научиться диалогу и научиться человеческому стилю ответов.

Инженеры, которые построили ChatGPT, наняли подрядчиков (называемых лейблами) для оценки выходных данных системы ИИ, GPT-3, и их исследовательская работа пришла к выводу, что результаты были положительными, но отметили, что есть возможности для улучшения.

«В целом наши результаты показывают, что точная настройка больших языковых моделей с использованием человеческих предпочтений значительно улучшает их поведение при выполнении широкого круга задач, хотя еще многое предстоит сделать для повышения их безопасности и надежности».

ChatGPT специально запрограммирован так, чтобы не давать токсичных или вредных ответов. Таким образом, он будет избегать ответов на подобные вопросы.

Ответы не всегда правильные

Еще одно ограничение заключается в том, что, поскольку он обучен давать ответы, которые кажутся людям правильными, ответы могут обмануть людей, заявив, что вывод правильный.

Например, Stack Overflow был завален ответами пользователей, сгенерированными из ChatGPT, которые казались правильными, но многие из них были неправильными. Тысячи ответов перегрузили команду модераторов-добровольцев, что побудило администраторов ввести бан в отношении любых пользователей, публикующих ответы, сгенерированные из ChatGPT.

Последние мысли

Обучение с подкреплением может быть мощным инструментом для обучения систем ИИ. Однако, как мы видели в прошлом, важно всегда иметь человека в курсе событий и стараться максимально предвидеть и отслеживать непредвиденные последствия. В определенной степени бета-версии и итерации являются неизбежной частью эволюции системы ИИ. Важно признать это и представить с соответствующими предостережениями, чтобы пользователи понимали ограничения.