С ODSC West 2018 в журналах истории это не разочаровало. Конференции могут быть раздуты, и обычно пропорционально количеству модных словечек, продаваемых в преддверии. ODSC West не был; Я пошел домой с рядом практических приемов, которые я буду применять к проблемам машинного обучения, которые ждут меня на моей основной работе.

Во-первых, теперь я могу вкратце разъяснить своим коллегам-непрофессионалам термины «наука о данных» и «машинное обучение» благодаря выступлению Амира Наджми, главного специалиста по данным в Google. Наджми сказал, что наука о данных «формирует решения, которые должны приниматься в условиях неопределенности», в то время как машинное обучение — это лишь один из многих инструментов науки о данных, который «… не связан с [] происхождением или достоверностью [] модели». Наджми продемонстрировал, что он не пил хорошо задокументированную смесь Kool Aid.

Это был отрезвляющий взгляд на нашу область, учитывая, как современные СМИ спотыкаются о модные словечки, и от кого лучше услышать это, чем от одного из соредакторов Неофициального блога Google по науке о данных.

Андрей Карпатий, директор по искусственному интеллекту Tesla, выступает в переполненном зале

(Активное) обучение

Одна из моих любимых презентаций была от Алекса Спангера, специалиста по данным в New York Times. Он объяснил, как команда NYT Data Science помогла культовому изданию заманить рекламодателей на платформу, предоставив им возможность сочетать свою рекламу со статьями, которые, скорее всего, вызовут эмоции — надежду, страх, гнев, любовь и т. д. — наиболее соответствующие их объявлению. (Этот инструмент нигде не используется в отделе новостей, чтобы сохранить журналистскую честность.) У меня не было много хороших применений НЛП (обработка естественного языка) на работе — мое знакомство с ним ограничивалось анализом настроений — поэтому, когда он поделился как они построили модели глубокого обучения для конкретных эмоций, я был в восторге.

Однако настоящей ценностью его доклада для меня было описание активного обучения — метода повторной выборки, который он и его команда использовали, чтобы извлечь максимальную пользу из нехватки статей, помеченных эмоциями, которые они вызывают. Как вы понимаете, чтение сотен тысяч статей в Нью-Йорк Таймс было бы непомерно финансово и временно, так что обойти это несложно. Они использовали механический турок, чтобы читать и оценивать определенные статьи для своей обучающей выборки, но они не оценивали просто любую статью. Были выбраны только те статьи, которые были бы наиболее полезными для их моделей, где самые полезные были определены как труднее предсказать. Спангер и его коллеги использовали активное обучение для выбора наиболее полезных статей и продолжали процесс до тех пор, пока добавление новых статей не переставало повышать точность. Это привело к значительному повышению прогностической способности, что было подтверждено рандомизированным исследованием. Очень круто. Я буду использовать это в ближайшее время.

Интерактивные графики коэффициентов

Еще один полезный доклад был сделан автором R для всех Джаредом Ландером, главным специалистом по данным в Lander Analytics и профессором Колумбийского университета. Он почти восемь часов развлекал аудиторию энтузиастов науки о данных некоторыми из самых полезных методов машинного обучения в R, такими как эластичная сеть и случайный лес. Безусловно, самое классное, что я узнал, это как визуализировать интерактивный график пути коэффициента (показан ниже) для штрафной регрессии с помощью coefplot::coefpath() (попробуйте!).

Мне было трудно найти участника, который был бы недоволен — и я действительно спросил — отчасти из-за огромного количества контента. 320 часов контента от более чем 200 спикеров были втиснуты в четыре восьмичасовых дня — всего 32 часа — а это означает, что да, вы можете пропустить выступление на тему, на которую у вас еще не было времени.

Но организаторы свели это к минимуму, запланировав доклады по R в тандеме с докладами по Python, поэтому обычно вы жертвовали только докладом на другом языке. Моя точка зрения такова: не только техническое содержание сделало ODSC достойным поездки, оно также было организовано так, чтобы максимизировать мое обучение.

Тем не менее, было несколько выступлений, которые я хотел бы увидеть, если позволит время:

  • «Потенциал и проблемы DS в количественных инвестициях», Кадзухиро Симбо
  • «Средний R Markdown в Shiny», Джаред Ландер
  • «Платформа и процесс Agile Data Science», Сара Эрни
  • «Настройка ненастраиваемого: уроки по настройке дорогостоящих функций глубокого обучения», Скотт Кларк
  • «Структура непрерывного эксперимента в Uber», Джереми Гу
  • «Прогнозирование временных рядов: прогнозирование производительности модели в неизвестном будущем» Ноа Долева

Все хорошо, так как ODSC Восток выходит в конце апреля. А пока смотрите западные видео, когда они доступны!

Ред. Примечание: К счастью, многие из этих выступлений были засняты на видео, так что их можно посмотреть постфактум! Участники получают первый доступ, но большинство выступлений в конечном итоге переходят на YouTube.

Оригинальная история здесь

— — — — — — — — — — — — — — — — — —

Читайте другие статьи по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от начального до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.