Я бы проигнорировал тех, кто говорит, что вам абсолютно необходимо знать инструменты для работы с большими данными / глубокое обучение сразу же, потому что, скорее всего, они вам не понадобятся на первых порах для решения многих проблем вашей компании. - Джесси Штайнвег-Вудс

Обучение у экспертов и наставников было главным в моей карьере. Цель Acing AI - помочь людям освоить ИИ. Это, конечно, невозможно без анализа экспертов. Эта статья является первой из многих статей, в которых я поделюсь своими беседами с экспертами в этой области. На этой неделе с нами Джесси Штайнвег-Вудс. Джесси - старший научный сотрудник компании tronc (онлайн-контент Tribune). Он работает над созданием рекомендательной системы для новостных статей и пониманием поведения клиентов в отношении разнообразного новостного онлайн-контента. Помимо его звездного опыта, на его сайте есть несколько замечательных статей в блогах и обзоров книг, которые мне лично понравились. Я составил список вопросов для Джесси, и я благодарен ему за то, что он нашел время, чтобы ответить на них. А теперь к разговору ...

Вимарш Карбхари (ВК): Какие три лучшие книги об AI / ML / DS вам больше всего понравились? Какие книги оказали наибольшее влияние на вашу карьеру?

Джесси Штайнвег-Вудс (JS):

На моем сайте есть много других рецензий на книги: Книжные рецензии

ВКонтакте: Какие инструменты (программное обеспечение / оборудование / привычки), которыми вы пользуетесь как специалист по анализу данных, оказывают наибольшее влияние на вашу работу?

JS: Github и библиотека Python pandas.

Github, потому что он позволяет разместить весь мой код в одном месте и позволяет мне делиться им с членами моей команды (а также использовать часть их кода в своей работе). Он также позволяет управлять версиями, проверять код и делать резервную копию моего кода.

Pandas, потому что он позволяет мне быстро создавать прототипы и легко загружать данные в различных форматах.

ВКонтакте: Не могли бы вы рассказать о неудачах / проектах / экспериментах, связанных с наукой о данных, из которых вы узнали больше всего?

JS:. Ошибки в системе рекомендаций, которую я помог создать, показали мне важность регистрации систем машинного обучения, которые используются в производственной среде.

У меня также был проект в моей последней компании, где он не работал, потому что мои предположения о том, как собираются данные, были полностью ошибочными.

В разработанной мною модели оттока отрицательные примеры не создавались должным образом и вносили в модель предвзятость. Я не обнаружил этого, пока не сравнил основные распределения функций. Проверьте это, если модель не работает должным образом в реальной жизни, чтобы увидеть, есть ли у нее какой-то уклон при обучении.

ВК: Если бы вы писали книгу, как бы она называлась? Какие основные темы вы бы затронули в книге?

JS: «Использование колледжа для правильного начала карьеры». Не думаю, что в первый раз поступил правильно в колледже. Университеты не уделяют достаточного внимания обучению студентов навыкам планирования карьеры, и я чувствую, что этого крайне не хватает в высшем образовании. Я хотел бы помочь решить эту проблему с помощью книги с моей точки зрения.

ВК: С точки зрения времени, денег или энергии, какие самые лучшие инвестиции вы сделали, которые принесли вам совокупное вознаграждение в вашей карьере? - Любая книга, проект, конференция, митап может быть чем угодно.

JS:

  1. Создание собственного веб-сайта и домашних проектов. Благодаря этому я так много узнал о науке о данных и разработке программного обеспечения.
  2. Следуя за ведущими учеными, занимающимися данными, и учеными, занимающимися машинным обучением, в Twitter. Так вы много узнаете о новых публикациях, новых приложениях или просто забавных анекдотах, которыми делятся другие в этой области.
  3. Взаимодействие с другими аналитиками данных. Это отличный способ поделиться идеями и новыми открытиями, а также советами от других, которые могут помочь вам в ваших собственных проектах.

ВК: Какие абсурдные идеи относительно экспериментов / проектов в области науки о данных не являются интуитивно понятными для людей, ищущих извне?

JS:

Иногда люди не понимают, как работает машинное обучение. Те, кто не знаком с этим, думают, что компьютер «думает сам за себя», в то время как все, что мы на самом деле делаем, - это пытаемся создать программу, которая может интуитивно что-то на основе прошлых примеров, которая может быть применена к будущим ситуациям.

ВК: Что улучшило вашу трудовую жизнь за последний год, что может принести пользу другим?

JS: старайтесь свести к минимуму встречи, если они не являются абсолютно необходимыми. Я считаю, что так работаю более продуктивно.

ВКонтакте: Что вы посоветуете тем, кто начинает работать в этой области? Какой совет им следует игнорировать?

JS: сначала стремитесь к низко висящим фруктам / легким победам. Иногда специалисты по обработке данных пытаются браться за слишком сложные проекты, тогда как более простые можно завершить за гораздо меньшее время и дать результаты для вашей организации гораздо раньше.

Я бы проигнорировал тех, кто говорит, что вам абсолютно необходимо знать инструменты для работы с большими данными / глубокое обучение сразу же, потому что, скорее всего, они вам сначала не понадобятся для решения многих проблем вашей компании.

ВКонтакте: Какие, по вашему мнению, плохие рекомендации в области науки о данных?

JS: люди, которые утверждают, что вы можете стать специалистом по обработке данных всего за шесть месяцев без близкого опыта, вероятно, в большинстве случаев неверны. Область очень обширна, и есть чему поучиться. Мне также не нравится, когда люди путают роли специалиста по анализу данных и специалиста по анализу данных. На мой взгляд, это не одно и то же. Оба служат разным потребностям и обладают разным набором навыков.

ВКонтакте: Как вы определяете, что отказываетесь от экспериментов / проектов?

JS: Я пытаюсь взвесить влияние, которое проект может оказать на организацию, и сколько времени, по моему мнению, потребуется для этого. В первую очередь я отдаю приоритет тем проектам, которые могут принести наибольшее влияние за минимальное время. Однако это зависит от того, какие данные доступны, поскольку вам могут потребоваться данные, которых еще нет, для выполнения проекта.

ВКонтакте: Вы когда-нибудь были ошеломлены объемом данных, размером эксперимента или проблемой с данными? Если да, что вы делаете, чтобы очистить свой разум?

JS:, когда вы начинаете работу с новой базой данных, особенно если она плохо документирована (а они, к сожалению, обычно так и есть), может быть невероятно легко потерпеть поражение. Я пытаюсь запускать по одной таблице в базе данных и выяснять, что означают столбцы и могут ли они иметь для меня ценность. Я также пытаюсь понять, как таблицы связаны друг с другом и как их объединить. Это требует терпения, но со временем вы справитесь.

ВКонтакте: Как вы относитесь к представлению своей гипотезы / результатов после того, как вы пришли к решению / открытию?

JS: Я пытаюсь поставить себя на место другого человека и спрашиваю, как лучше всего заставить его понять результат проекта. Это может быть особенно сложно, если другой человек по своей природе не очень количественный, поэтому в этом случае вам действительно нужно сузить результаты вашего эксперимента или проекта до абсолютно важных частей.

ВК: Какую роль играет интуиция в вашей повседневной работе и в принятии важных решений на работе?

JS:. Интуиция определенно помогает при принятии решения, какие функции могут быть хорошими в модели. Это также помогает решить, над какими проектами стоит работать. К сожалению, и то, и другое становится лучше с опытом.

ВКонтакте: По вашему мнению, какое организационное размещение является идеальным для группы данных?

JS:, честно говоря, это зависит от команды и компании. Я думаю, что специалисты по данным типа B (больше ориентированные на разработку программного обеспечения) должны быть тесно связаны с инженерами. Специалисты по обработке данных типа А (более ориентированные на анализ) должны быть тесно связаны с продуктом или генеральным директором.

ВК: Если бы вы могли переделать свою карьеру сегодня, что бы вы сделали?

JS:, вероятно, я бы либо взял больше курсов по разработке программного обеспечения во время учебы в колледже, либо прошел стажировку, в которой во время бакалавриата был более крупный компонент разработки программного обеспечения, чем у меня. Мне пришлось изучить много программной инженерии за очень короткий период времени. Хотя это было захватывающе, и я в конце концов догнал его, это было также сложно. Я думаю, что это было бы меньше, если бы я лучше знал передовой опыт разработки программного обеспечения до того, как начал переходить в науку о данных из академических кругов. Программная инженерия в академических кругах сильно отличается от промышленности.

ВКонтакте: Какие у вас фильтры для уменьшения систематической ошибки в эксперименте?

JS:

Убедитесь, что распределения в вашей контрольной и экспериментальной группах максимально схожи и репрезентативны. Рандомизация - хороший способ уменьшить систематическую ошибку.

ВКонтакте: Когда вы нанимаете специалистов по данным, инженеров по данным или инженеров машинного обучения, какие три основных технических / нетехнических навыка вы ищете?

JS: Предположим, я хочу нанять специалиста по данным (больше ориентированного на создание продуктов, как у инженера по машинному обучению):

  • Хорошие знания в области машинного обучения
  • Достойные навыки разработки программного обеспечения
  • Хороший коммуникатор

ВКонтакте: За какими онлайн-блогами / людьми вы следите, чтобы получить советы / узнать больше о DS?

JS: Мне очень нравится datatau.com, потому что я всегда в курсе событий. Twitter также хорош, если вы знаете, на кого подписываться. Я предпочитаю следить за сочетанием ведущих исследователей в академических кругах и ведущих специалистов по обработке данных в компаниях. Это позволяет мне получать практические советы по проектам, а также новые идеи / инструменты от исследовательских групп. Если вам нужен простой способ начать работу, просто посмотрите, на кого я подписан в Твиттере, и переходите оттуда, когда найдете свои интересы. Мой дескриптор - @jmsteinw.

Видео с участием Джесси, которое может быть очень полезно всем читателям:

Еще раз хочу поблагодарить Джесси за то, что поделился с нами своими знаниями!

Подпишитесь на нашу рассылку Acing AI, я обещаю не спамить и БЕСПЛАТНО!



Спасибо за внимание! 😊 Если вам понравилось, проверьте, сколько раз вы можете нажать 👏 за 5 секунд. Это отличное кардио для ваших пальцев, И оно поможет другим людям увидеть историю.