Драгоценности PyCon: тщательно подобранная подборка исключительных докладов с PyCon DE 2023

LLM сами по себе не будущее.

Волнение и напряжение, витавшие в воздухе, были ощутимы, когда толпы выстроились в очередь, но их прогнали, когда конференц-залы были заполнены до отказа на PyCon DE 2023 в середине апреля в Берлине. Выпуск ChatGPT всего за несколько месяцев до этого вызвал безумие ИИ, вызвав цунами инноваций и сотрудничества для разработки первого полностью открытого исходного кода современного LLM, следующего за инструкциями. Только за три дня конференции мир открытого исходного кода объявил о выпуске LLaVA, StableLM и набора данных RedPajama.

Если бы я мог резюмировать PyCon DE 2023 одним предложением, я бы сказал: LLM сами по себе — это не будущее.

Подводя итог выступлениям Эрин Микаил Стейплс из Label Studio и Инес Монтани из Explosion, можно сказать, что LLM лучше справляются с последующими задачами, когда они используются с данными, специфичными для задачи. Кроме того, наиболее частыми разговорами среди участников были навязчивые политики сбора данных OpenAI, которые запрещают многим компаниям и даже целым отраслям использовать ChatGPT и GPT-4 в коммерческих целях.

LLM сами по себе не будущее.

Цель этой статьи — дать вам обзор моих любимых докладов на PyCon DE в этом году. Ниже я резюмирую пять моих самых любимых докладов и добавляю ссылки на описания программ, слайды и код, если они доступны. Все выступления на конференции были записаны и будут полностью доступны для публики после их загрузки.

Улучшение машинного обучения на основе отзывов людей

(Эрин Микаил Шарплс, Label Studio)

Модели, обученные на огромных наборах данных, такие как ChatGPT, накладывают предубеждения в масштабе Интернета на последующие задачи. Инжиниринг подсказок, процесс итеративного выбора и разработки подсказок для получения желаемого ответа от генеративной языковой модели, хотя и популярен, просто адаптируется к известным ограничениям модели. К счастью, есть лучшая альтернатива для устранения предвзятости в LLM.

В этом выступлении приглашенной звездой станет Обучение с подкреплением на основе отзывов людей (RLHF). RLHF — это процесс, посредством которого модель итеративно учится на обратной связи, предоставленной человеком, чтобы улучшить производительность модели. RLHF дает вам более точный контроль над LLM, согласовывая выходные данные модели с вашими конкретными потребностями и вариантами использования, а также уменьшая предвзятость, связанную с LLM. Label Studio — это платформа маркировки данных с открытым исходным кодом с удобным пользовательским интерфейсом и клиентом Python, которая позволяет вам интегрировать RLHF в ваши собственные рабочие процессы машинного обучения. RLHF не только повышает точность последующих задач, но также повышает достоверность и снижает токсичность при минимальных затратах.

Мне особенно понравилось это выступление, потому что оно демистифицирует концепцию RLHF — метода, сыгравшего решающую роль в разработке ChatGPT. Кроме того, Label Studio демонстрирует, что RLHF — это мощный и практичный инструмент с открытым исходным кодом, который можно легко добавить в ваш текущий рабочий процесс.

GitHub: heartexlabs/RLHF

Блокнот: RLHF_with_Custom_Datasets.ipynb



Включение GPT-3 в практические рабочие процессы НЛП

(Инес Монтани, Взрыв)

Когда я впервые попробовал ChatGPT, я серьезно задумался, как библиотеки NLP с открытым исходным кодом могут конкурировать с мощью OpenAI. Инес Монтани утверждает, что LLM дополняют, а не заменяют существующие рабочие процессы машинного обучения.

Explosion выпустил репозиторий рецептов, которые позволяют пользователям использовать возможности моделей OpenAI наряду с отзывами людей, собранными с помощью корпоративного инструмента аннотирования Prodigy. Трубопровод работает следующим образом:

  1. Подскажите GPT-3.5 (базовая модель ChatGPT) с заданием.
  2. Получите ответ и обработайте его как классификацию с нулевым или несколькими выстрелами.
  3. Попросите человека, принимающего решения, отметить ответ как точный или неточный.
  4. Используйте полученные аннотации для обучения или оценки вашей модели для конкретной задачи.

Если мне все еще нужно было убедить, что RLHF — это путь в будущее, то это выступление сделало это. Как и в докладе, который я изложил выше, Инес демонстрирует, что включение обратной связи с людьми в рабочие процессы НЛП приводит к более высокой производительности в последующих задачах, чем изолированное использование LLM. И, учитывая мой собственный опыт использования ChatGPT, я ни на секунду не сомневаюсь в этих утверждениях. Хотя я обнаружил, что он хорошо справляется с широкими задачами, я определенно не стал бы безоговорочно доверять ChatGPT или GPT-4 конфиденциальным задачам, требующим специальных знаний.

Слайды

GitHub: взрыв/prodigy-openai-рецепты



Методы передачи стиля текста: кейс по детоксикации текста

(Дарина Дементьева, Мюнхенский технический университет)

GitHub: dardem/text_detoxification

Публикация: ПараДетокс: детоксикация с параллельными данными

Глобальное внедрение Интернета предоставило людям платформу для обмена информацией, идеями и мнениями с постоянно растущей аудиторией. Исследование, проведенное в 2020 году, даже показало, что алгоритм рекомендаций Facebook Feed отдавал предпочтение провокационному контенту, поскольку он, как правило, повышал вовлеченность пользователей на платформу. И хотя язык ненависти и обнаружение токсичного текста были предметом многих исследований, меньше работы было сделано для фактической детоксикации такого текста.

В этом выступлении Дарина представляет ParaDetox, новый конвейер и набор параллельных наборов данных, обученных на параллельных наборах данных о токсичных и детоксицированных данных, которые используют передачу стиля текста (TST) для детоксикации токсичного текста. Рассматриваемый как задача генерации текста seq2seq, первым шагом в ParaDetox является курирование пар наборов данных токсичного текста и детоксицированного текста. Затем эти параллельные наборы данных используются для обучения языковой модели, которая автоматически очищает вводимый текст. Модели ParaDetox, которые могут детоксицировать текст на русском и английском языках, а также параллельные наборы данных, используемые для обучения моделей, в настоящее время размещены на HuggingFace Hub.

До широкого использования генеративных текстовых моделей, таких как ChatGPT, нам приходилось беспокоиться только о токсичном тексте, созданном людьми в Интернете. Однако теперь нам нужно беспокоиться о том, что и люди, и машины будут генерировать токсичные, вредные и ненавистные тексты. ParaDetox также использует творческий подход для решения вековой проблемы с использованием параллельных корпусов. Этот метод является еще одним ярким примером использования LLM ичеловеческого вклада для создания эффективного решения последующей задачи.



Действенное машинное обучение в браузере с PyScript

(Валерио Маджио, Анаконда)

Если вы привыкли в основном использовать блокноты Jupyter для комплексных проектов по обработке и анализу данных, вам может быть страшно развертывать свое первое веб-приложение. PyScript стремится изменить это, предоставляя программистам всех уровней подготовки простую основу для создания динамических веб-приложений Python. По словам Валерио, «вы можете программировать код Python в браузере без какой-либо установки».

PyScript построен поверх Pyodide, который обеспечивает доступ ко всему стеку PyData (за исключением нескольких неподдерживаемых модулей), сразу же доступному в браузере. В отличие от PHP, PyScript является клиентской технологией, то есть не требует сервера или какой-либо установки. Его можно использовать для совместного использования интерактивных информационных панелей, визуализации данных и создания клиентских веб-приложений Python.

Хотя приложения PyScript могут быть не такими продвинутыми, как приложения, разработанные с помощью Streamlit или Gradio, они предоставляют специалистам по данным удобную возможность ознакомиться и укрепить уверенность в развертывании веб-приложений. Как человек, у которого постыдная аллергия на языки программирования, отличные от Python или R, PyScript убедил меня в том, что «развертывание так же просто, как «развертывание» HTML-файла».

Слайды

GitHub: пискрипт/пискрипт



Как мы справляемся? Данные команды ИРЛ

(Ноа Тамир)

Хотя разговоры об управлении, по общему признанию, менее сексуальны, чем разговоры о последней модели, пакете или платформе машинного обучения SOTA, этот основной доклад был очень посещаемым, и на то есть веские причины. Хотя роль специалиста по данным существует уже 15 лет, большинство наших конференций посвящено управлению процессами и платформами, но не уделяют внимания управлению людьми.

В этом выступлении Ноа объясняет, что работа, основанная на данных, является вероятностной, а это означает, что ею сложно управлять и она требует других методов управления, чем работа, не основанная на данных. Быстрое развитие новых методов и технологий машинного обучения ставит перед менеджерами групп обработки данных уникальные задачи. И по мере того, как эта область развивалась с годами, менялись и роли в командах, управляемых данными. Нам трудно понять нюансы в названиях и описаниях должностей, что затрудняет найм нужных людей на нужную роль, а также может негативно повлиять на удовлетворенность работой и развитие карьеры сотрудников.

Хорошие менеджеры могут смягчить эти последствия, создав общее понимание и сообщая конкретные определения ролей данных текущим и потенциальным сотрудникам. Менеджеры также могут поддерживать своих сотрудников, помогая им развиваться как специалистам или специалистам широкого профиля, что приносит пользу командам, работающим с данными.

Выступление Ноа лаконично и честно описало проблемы, стоящие перед командами обработки данных. Они дали практические советы руководителям групп обработки данных, а также подчеркнули тот факт, что мы работаем в новой, быстро меняющейся области и что мы все еще учимся.

Слайды

Конференция PyCon DE 2023, одновременно очень мотивирующая и ошеломляющая, стала действительно выдающейся конференцией. Помимо выбора увлекательных и актуальных презентаций и семинаров, организаторы проделали замечательную работу по созданию безопасной и инклюзивной атмосферы.

В этом году я с облегчением узнал, что, несмотря на всю шумиху вокруг LLM, люди по-прежнему играют важную роль в создании ценных решений для работы с данными. Трудно представить, каким будет состояние ИИ через год, но одно я точно знаю: я вернусь в Берлин на PyCon DE 2024.

P.S. Я включу ссылку для доступа к записям конференции, как только она будет опубликована.

Если вы хотите быть в курсе последних тенденций, технологий и пакетов в области обработки данных, подумайте о том, чтобы стать участником Medium. Вы получите неограниченный доступ к статьям и блогам, таким как «На пути к науке о данных», и будете поддерживать меня в написании. (Я получаю небольшую комиссию за каждое членство).



Хотите подключиться?

  • 📖 Подписывайтесь на меня в Средних
  • 💌 Подпишитесь, чтобы получать уведомления по электронной почте всякий раз, когда я публикую
  • 🤓 Оцените мой новый проект
  • 🔗 Взгляните на мое портфолио

Я также написал:







Рекомендации

(1) Х. Лю, К. Ли, К. Ву, Ю. Дж. Ли, Настройка визуальных инструкций (2023).

(2) Стабильность ИИ, Стабильность ИИ запускает первый набор языковых моделей StableLM (2023 г.).

(3) Вместе RedPajama, проект по созданию ведущих моделей с открытым исходным кодом, начинается с воспроизведения набора обучающих данных LLaMA из более чем 1,2 триллиона токенов (2023 г.).

(4) ПЫСВ Е.В., PyCon DE & PyData Berlin 2023 (2023).

(5) М. Берджесс, У ​​ChatGPT большие проблемы с конфиденциальностью (2023).

(6) OpenAI, Введение в ChatGPT (2023 г.).

(7) OpenAI, GPT-4 — самая передовая система OpenAI, обеспечивающая более безопасные и полезные ответы (2023 г.).

(8) OpenAI, Обучение на основе человеческих предпочтений (2023).

(9) Heartex Labs, heartexlabs/RLHF (2023).

(10) Heartex Labs, Реализация RLHF с пользовательскими наборами данных (2023).

(11) И. Монтани, Включение LLM в практические рабочие процессы НЛП (2023).

(12) Взрыв, explosion/prodigy-openai-recipes (2023).

(13) Дементьева Д., dardem/text_detoxification (2023).

(14) Логачева В.1, Дементьева Д.1, Устьянцев С., Московский Д., Дейл Д., Кротова И., Семенов Н., Панченко А. ПараДетокс: детоксикация с параллельными данными (2022).

(15) Л. Манн, Angry by design: токсичные коммуникации и технические архитектуры (2020).

(16) В. Маджио, Действенное машинное обучение в браузере с помощью PyScript (2023).

(17) PyScript, pyscript/pyscript (2023).

(18) Н. Тамир, Как мы управляем? Data Teams Management IRL (2023).