4 интересных события в области науки о данных на конференции Open Data Science (ODSC2022)

4 интересных события в области науки о данных на конференции Open Data Science 2022

На прошлой неделе я посетил конференцию Open Data Science Conference (ODSC) в Бостоне. Для меня, как для начинающего специалиста по данным, это была возможность связаться с сообществом, и я получил от этого ощутимое чувство волнения и импульса.

ODSC длился 4 дня и проходил как лично, так и онлайн. Доклады были разделены на потоки, включая Machine Learning, MLOps, NLP, Biotech и другие.

Огромная широта тем означает, что было бы невозможно полностью точно обобщить ODSC, поэтому я собираюсь выбрать некоторые из самых интересных точек зрения.

Это были:

«У генеративных моделей есть шанс» — Хиллари Мейсон
Крупные компании инвестируют в инструменты MLOps с открытым исходным кодом, которые решают вездесущие инженерные задачи.
Специалисты по данным заинтересованы в улучшении сотрудничества внутри своих организаций.
Продуктивное сотрудничество с искусственным интеллектом человека станет возможным в ближайшем будущем (и уже сейчас!)

1. «Генеративные модели переживают момент» — Хиллари Мейсон.

Хиллари Мейсон из Hidden Door, стартапа видеоигр, основанного на ИИ, привела веские доводы в своем выступлении. Хотя было бы трудно не знать об этой тенденции в целом, Хиллари объяснила мне, почему и почему именно сейчас.

Почему генеративные модели? Что ж, выборка из генеративных моделей позволяет вам создавать выходные данные, такие как текст, изображения, белковые последовательности и другие полезные выходные данные. Самое известное, что GPT-3 вышла пару лет назад и вызвала множество интересных дискуссий о машинном интеллекте. GPT3 уже производит человекоподобный текст, а модели только улучшаются.

Дальнейшая работа над такими моделями для создания новых возможностей и открытия дверей для различных видов продуктов, включая искусство, созданное ИИ, такое как DALL-E, видеоигры с использованием рассказчиков ИИ и еще более мощные языковые модели, такие как PaLM. .

Почему сейчас? Обучение и продвижение этих моделей долгое время казалось глубоко недоступным для непосвященных. Было бы легко подумать, что в обозримом будущем, если вы хотите работать с такими моделями, как GPT3, вам нужно будет работать в DeepMind или OpenAI.

Однако Хиллари отметила, что взаимодействовать с этой технологией становится проще, чем когда-либо прежде:

Такие платформы, как HuggingFace, как никогда упрощают обмен данными и моделями.
Colab и другие вычислительные платформы (такие как стартап SaturnCloud) упрощают доступ к мощным GPU и TPU по мере необходимости.

Если вы хотите быстро испытать то, о чем говорит Хиллари, зайдите на сайт OpenAI и воспользуйтесь игровой площадкой API. OpenAI, предоставляя генеративные модели по запросу, продемонстрировал, что они достаточно устоялись, чтобы их можно было продавать как полезность, точно так же, как Интернет или электричество!

2. Крупные компании инвестируют в инструменты MLOps с открытым исходным кодом, которые решают повсеместные инженерные задачи.

По моему опыту, MLOps — это огромная составляющая жизни специалиста по данным. В то же время, он полностью недоучивается в академических контекстах.

MLOps и Data Engineering были в центре внимания ODSC. Один доклад, который я посетил, был особенно хорош, он был сделан Робертом Кроу из Google/Searchlight, присутствовавшим на TensorFlow Extended (TFX).

TFX — это комплексная платформа для развертывания конвейеров машинного обучения, которую используют такие компании, как Spotify, Google (Maps/Gmail) и OpenX.

Роберт утверждал, что мотивация для создания TFX очень похожа на мотивацию для создания любого программного инструмента. Все сталкиваются с одними и теми же задачами и снова и снова переписывают один и тот же шаблонный код. Это подтверждается моим собственным опытом и опытом многих участников, с которыми я разговаривал. Хотим мы это признать или нет, но многие повторяющиеся действия не автоматизированы и не абстрагированы, когда это должно быть — так что хорошо, что существует TFX!

Далее Роберт описал большую часть деталей разработки и использования конвейера машинного обучения с TFX, однако вы можете найти такие подробности здесь.

Теперь вопрос о том, является ли TFX правильным решением для MLOps, можно исследовать гораздо подробнее (например, в этой статье). Я просто хочу сказать, что мне очень приятно знать, что многие люди сталкиваются с похожими проблемами и что крупные компании сотрудничают в разработке мощных решений с открытым исходным кодом.

И последнее замечание: Роберт предложил DeepLearning.AI TFX на Coursera (в котором он является инструктором) для тех, кто заинтересован в обучении в этой области.

Расширенный TensorFlow (TFX) | Производственные конвейеры машинного обучения
Это руководство обучает модель нейронной сети классифицировать изображения одежды, например кроссовок и рубашек, сохраняет обученные…www.tensorflow.org

3. Специалисты по данным заинтересованы в общении, чтобы максимизировать свою ценность в организациях.

На собрании такого количества технических специалистов, работающих в такой технической области, было бы очень легко обсудить в основном технические темы. На ODSC это было не так, и было немало докладов, посвященных социальному и деловому контексту машинного обучения.

В частности, доклад Моны Халил Повышение потенциала вашей организации для принятия решений на основе данных был одновременно вдохновляющим и практичным. Мона — менеджер по обработке и анализу данных в GreenHouse Software.

Мона начала с того, что призвала участников рассмотреть более широкий контекст данных в своих организациях. Мое понимание их тезиса заключалось в том, что разработка эффективной коммуникационной стратегии при рассмотрении путей создания ценности может привести к ее максимизации.

На протяжении всей презентации Моны я не мог не думать о трех направлениях в DevOps, которые включают системное мышление (то есть пути к ценности) и эффективную коммуникационную стратегию (усиление циклов обратной связи) в качестве ключевых компонентов.

Конкретные предложения Моны, которые я хотел бы выделить, включают:

Аудит ваших активов данных. Знайте, каким заинтересованным сторонам нужен доступ к каким данным.
Создание ежемесячного информационного бюллетеня, чтобы ваша организация была в курсе ключевых данных и событий, имеющих отношение к вашим командам.
Использование инструментов панели мониторинга для обеспечения недорогого просмотра ценных данных в вашей организации.

Однако предложение Моны, которое мне больше всего понравилось, заключалось в том, чтобы расширить возможности обучения в вашей организации (аналогично третьему способу в DevOps).

Чем больше люди узнают о данных, которые могут повлиять на их решения, тем меньше будет давления на специалистов по науке о данных, чтобы они могли обращаться за поддержкой данных.

Мона предоставила несколько ценных ресурсов для предоставления дополнительной информации, включая эту статью об аналитике самообслуживания, статью Shopify Основы науки о данных и инженерии и эту статью о предоставлении другим командам в вашей организации данных как услуги.

4. Продуктивное сотрудничество человека с ИИ станет возможным в ближайшем будущем (и сейчас!)

Ранее в этом году я начал использовать GitHub Copilot, программатор для работы с парами ИИ, функции которого выходят далеко за рамки сложного автозавершения, конвертируя комментарии в относительно сложный код, пишу модульные тесты и предлагая альтернативные решения для выполнения задач. Если вы еще не пробовали, очень рекомендую.

Поэтому, когда я увидел, что Падраик Смит выступает с докладом под названием Сверхуверенность в машинном обучении: знают ли наши модели то, чего они не знают? — Я был заинтригован, но не ожидал такой глубокой и увлекательной презентации о сотрудничестве человека и ИИ.

Смит начинает с демонстрации того, что модели SOTA (современные) для таких задач, как классификация изображений, могут быть неверными, и это совершенно точно. Он привел примеры, когда действительно мощные, хорошо обученные модели присваивали высокие вероятности неверным классам или предсказаниям.

Интересно, что он далее указывает, что литература предполагает, что неглубокие модели, как правило, лучше откалиброваны (приписывая более низкую достоверность неверным прогнозам, чем правильным прогнозам), и хотя было предпринято много попыток решить эти проблемы, например, с помощью ансамбля, байесовских подходов или сглаживания меток, они достигли лишь разной степени успеха.

В этот момент Смит расходится, сосредотачиваясь на взаимодополняемости человека и ИИ как на решении. Основная идея (возможно, я слишком упрощаю) заключается в том, что люди и ИИ совершают разные виды ошибок. Другими словами, мы могли бы использовать ортогональность наших прогнозов и использовать байесовские методы, чтобы лучше сочетать прогнозы человека и ИИ, чем каждый из них по отдельности.

Рисунок 3 статьи Смита Байесовское моделирование взаимодополняемости человека и ИИ | PNAS хорошо показывает этот эффект (я бы включил его сюда, но хотел избежать проблем с авторскими правами. Посмотрите на него и обратите внимание, что повышение точности от гибридов человека и ИИ увеличилось там, где корреляция в прогнозе была низкой).

В этой задаче классификации изображений, где человеческие ошибки и ошибки нейронной сети коррелировали меньше всего, можно было использовать байесовское моделирование для объединения прогнозов и улучшения результатов.

Взгляды Смита очень согласуются с моими собственными. Да, второй пилот Github часто может ошибаться. Но это неправильно в очевидных для меня отношениях. Тем не менее, это все еще чрезвычайно полезно, и мы вдвоем пишем код быстрее и с более полными тестами, чем раньше.

Еще один похожий инструмент, который я хочу использовать чаще, — это помощник исследователя с искусственным интеллектом Elicit, который использует точно настроенные языковые модели GPT-3, чтобы помочь исследователям в оценке доказательств.

Лично я очень рад, что моя собственная производительность увеличилась при наличии таких инструментов, и с нетерпением жду увеличения прогресса в этой области или, возможно, внесения в него своего вклада.

Заключительные примечания

Посещение ODSC East 2022 было потрясающим опытом, и я настоятельно рекомендую посетить его всем, кто работает в области технологий или науки.

Суть проста.

Возможности машинного обучения и искусственного интеллекта достигают новых высот, расширяя возможности человека, позволяя нам демократизировать информацию в наших организациях и автоматизировать больше скучных задач, чем когда-либо прежде.

Надеюсь увидеть вас всех на ODSC 2023!

Вы можете связаться со мной в твиттере @jbloomAus или прочитать другие мои статьи здесь: