Data Science Первые шаги

3 способа проникнуть в науку о данных

Начинаете свое путешествие в науку о данных? Выберите правильный путь, чтобы увеличить свои шансы

В связи с популярностью и спросом на специалистов по данным, а также с хорошо задокументированной нехваткой квалифицированной рабочей силы все больше людей интересуются наукой о данных как своей профессией. Со временем у меня появляется все больше и больше вопросов о том, как начать работу в качестве специалиста по данным. Как и во многих других должностях, получить первую работу обычно труднее всего, поскольку наличие некоторого опыта за плечами является обязательным для многих работодателей. Это может создать заманчивую уловку 22: как вы получите свою первую работу, если все они требуют предыдущего опыта?

В этом посте я постараюсь дать вам несколько советов, основанных на моем собственном опыте перехода в науку о данных несколько лет назад и моем текущем опыте управления отделом науки о данных, собеседований с десятками кандидатов и рассмотрения сотен приложений каждый год.

Какое у тебя прошлое?

По моему опыту, людей, пытающихся начать карьеру в области науки о данных, можно разделить на три относительно разные группы. Важно определить, на кого из них вы больше всего похожи, чтобы понять, что делать дальше.

  1. Изменение карьеры в STEM. Это люди с ученой степенью в технической / научной области, которые могут уже иметь несколько лет опыта работы в смежной области. По мере роста ажиотажа вокруг науки о данных они начали рассматривать вариант перехода. Обычно они обладают сильным математическим и исследовательским опытом и могут следовать линейной алгебре и статистике, лежащим в основе моделей машинного обучения. У них есть опыт чтения научных статей, и их не пугают формулы. Их передаваемые навыки могут помочь им относительно быстро стать хорошими специалистами по данным.
  2. Новый выпускник науки о данных. Прошло несколько лет, когда университеты начали удовлетворять потребности отрасли, и теперь различные факультеты предлагают программы магистратуры в области науки о данных. В зависимости от университета, они могут включать факультеты статистики, электротехники или промышленного машиностроения. Хотя эти степени не могут охватить все, они быстро становятся золотым стандартом для всестороннего обучения науке о данных, которого не может удовлетворить трех- или шестимесячный учебный курс. Хорошая программа также будет включать диссертацию (и публикации), что дает работодателю возможность более подробно обсудить вашу работу. Каждый раз, когда я беру интервью у выпускников, я глубоко погружаюсь в их тезисы, убеждаюсь, что они понимают альтернативные подходы, обсуждаю, почему они приняли те или иные решения, и выясняю, как они справляются с обратной связью. Из-за объема диссертации это обычно отличный способ оценить, как кто-то проводит исследование и насколько хорошо он действительно знает свой материал, чего не может достичь проект Kaggle, который они сделали некоторое время назад.
  3. Оптимист - это тот, кто не прошел формального обучения науке о данных и не имеет обширного опыта в области статистики / математики. У них может быть несколько лет опыта работы в области анализа данных в определенной вертикали (финансы, здравоохранение и т. Д.), И они захотят дополнить свои текущие навыки, чтобы постепенно перейти к роли в области науки о данных. В прошлом несколько человек обращались ко мне за консультацией о том, могут ли они стать специалистом по обработке данных в сфере финансовых технологий или какой-либо другой конкретной вертикали. Хотя деловая хватка и опыт в вертикали важны, это неправильный образ мышления. Общность между ролями в области науки о данных в различных вертикалях значительна - инструменты и алгоритмы решают общие математические задачи, а не специфические для вертикалей. Легче научить хорошего специалиста по данным новой предметной области, чем научить бизнес-аналитика со знанием предметной области программированию, обучать статистике и машинному обучению. Если вы хотите быть специалистом по данным - вы хотите быть именно этим, а не специалистом по данным в области финансовых технологий.

Если вы дочитали до этого места, то, вероятно, знаете, что существует множество онлайн-курсов, которые преподают все, что связано с наукой о данных. Хотя эти курсы имеют фундаментальное значение и содержат большое количество контента, подавляющее большинство стараются как можно быстрее дать наиболее практическую информацию. Обычно это означает, что вы собираетесь изучить множество моделей машинного обучения, но получите только 30 000-футовое объяснение того, как на самом деле работает алгоритм. Многие курсы не усложняют задачу сложной математикой, поэтому они остаются доступными для максимально широкой аудитории. Хотя, безусловно, можно обучать модели и заниматься наукой о данных, не разбираясь в тонкостях алгоритма, ваши возможности будут ограничены. С тенденцией к автоматическому сбору ML, подключение алгоритма и опробование нескольких стандартных опций в ближайшем будущем не потребует специалиста по данным. Как и многим другим профессиям, специалистам по обработке данных также необходимо будет иметь преимущество перед автоматизированными системами, чтобы сохранить свою работу, что обычно означает более глубокое понимание алгоритмов.

Из-за очень доступного характера обучения науке о данных и отсутствия стандартных необходимых квалификаций для практики в области науки о данных, любой, кто прошел 50-часовой курс, может самостоятельно назначить себя специалистом по данным. Как и везде, когда роль пользуется большим спросом, предложение будет увеличиваться, чтобы удовлетворить спрос, и начнется приток новых кандидатов. Чтобы иметь серьезные шансы добиться успеха на местах, требуются значительные затраты времени.

Как проникнуть в науку о данных

Есть разные способы получить минимальный опыт и знания, чтобы получить свою первую должность в области науки о данных. При приеме на работу на младшую должность интервьюер будет обращать внимание на несколько вещей:

  • Вы понимаете основы и теорию машинного обучения?
  • У вас есть необходимые навыки программирования (обычно Python или R)?
  • Можете ли вы продемонстрировать оба этих момента (например, пройтись пешком, а не просто поговорить)?

Как кандидат, вы должны помнить, что функция потерь компании асимметрична: наем плохого кандидата может иметь гораздо худший результат, чем отказ от хорошего найма. Это означает, что компании будут осторожно рисковать тем, у кого нет опыта работы. Вам нужно как можно больше помогать менеджеру по найму, чтобы продемонстрировать, что вы являетесь сотрудником с низким уровнем риска и высоким потенциалом. Это также означает, что ваши шансы могут быть относительно низкими, и вам нужно быть эмоционально подготовленным к множеству отказов, прежде чем получить предложение.

Есть 3 основных способа получить теоретические знания и опыт, необходимые для вашей первой роли, и их можно комбинировать различными способами:

  1. Степень магистра (с диссертацией) - Как упоминалось выше, это, вероятно, золотой стандарт обучения сегодня. Хотя это может занять 1-2 года, это время потрачено не зря, особенно если вы учитесь в известном университете. Родословные университетов различаются в зависимости от местоположения, поэтому это помогает понять, какой университет считается хорошим в вашем районе.
  2. Bootcamp - они обычно проводятся 3–6 месяцев для программ полного рабочего дня и намного дольше, если они работают неполный рабочий день. Лучше всего обращать пристальное внимание на финансовые стимулы, которые программа имеет для вашей будущей карьеры. В некоторых буткемпах это очень просто - вы платите за обучение. С другой стороны, лучшие учебные курсы также предлагают соглашения о разделе доходов. В этом сценарии после завершения учебного лагеря вы платите им процент от своей зарплаты, только если она превышает пороговое значение. Соглашение обычно действует в течение 2–4 лет и ограничено (например, в 1,5–2 раза выше предоплаты за обучение). В Израиле ITC и Y-Data действуют таким образом и уделяют больше внимания тому, чтобы помочь своим ученикам получить их первую роль. Другие учебные курсы работают, удерживая вас в своей зарплате в течение 2 лет после периода обучения, в течение которого вы работаете над проектом для их компаний-клиентов (например, Experis Academy в Израиле). Начальный лагерь выплачивает вашу зарплату напрямую и кладет в карман разницу между ней и их гонораром за аутсорсинг, при этом обычно предлагая сотруднику пункт о выходе (который покрывает его расходы на обучение).
    Вообще говоря, эти учебные курсы охватывают широкий круг тем и включают теоретические знания в области машинного обучения, навыки программирования, статистику и (как минимум, один) завершающий проект. Как вы понимаете, разные учебные лагеря имеют разные уровни стимулов для обеспечения вашего успешного трудоустройства после их обучения. В некоторых случаях, возможно, стоит потратить время на учебный курс, даже если значительная часть материала уже известна, чтобы извлечь выгоду из их помощи в достижении первой позиции.
  3. Онлайн-курсы - количество и качество этих курсов кардинально изменили ситуацию, позволив любому человеку во всем мире учиться у ведущих экспертов. Тот факт, что такой высококачественный контент теперь доступен любому желающему, резко снизил барьер для входа. На очень высоком уровне эти курсы можно разделить на два типа: курсы вводного уровня, которые пытаются охватить понемногу из всего, связанного с машинным обучением, и более продвинутые курсы, которые глубже погружаются в конкретные области. Некоторые из популярных курсов начального уровня можно пройти менее чем за 80 часов посвященных усилий. Хотя это требует самоотверженности (особенно для того, чтобы заниматься этим помимо работы на полную ставку), это относительно тривиальное вложение времени по сравнению со многими другими высокооплачиваемыми профессиями (например, подумайте о времени, необходимом, чтобы стать пилотом, юристом или врачом). . Я видел, как несколько соискателей назвали печально известный курс машинного обучения Эндрю Нга своим единственным практическим опытом. Я согласен с тем, что это отличный курс (это был первый курс, который я прошел при переходе к науке о данных), но его определенно было недостаточно, чтобы получить квалификацию специалиста по данным. Вам следует очень осторожно относиться к любому курсу, который претендует на то, чтобы научить вас азам машинного обучения. Они могут быть отличным знакомством с этой областью, но вы должны относиться к ним как к первому шагу в долгом путешествии.

Что означают для меня эти тенденции?

Смена карьеры в STEM. Из трех путей это, вероятно, самый быстрый, и если вы потратите достаточно времени, ваши шансы на успех довольно высоки. Кроме того, чем ближе ваш опыт к науке о данных, тем лучше. В зависимости от вашего опыта у вас уже может быть большая часть математических знаний и вам нужно больше инвестировать в свои навыки программирования. Как работодатель, обсуждение чьей-либо диссертации может помочь показать, насколько хорошо он разбирается в сложных предметах исследования. Могут ли они быстро проникнуть в сорняки и вернуться на 30 тысяч футов? Действительно ли они понимают, почему они приняли разные решения или использовали определенные алгоритмы? Какую ценность могут иметь их исследования? Хотя аналитикам данных недостаточно сильных исследовательских возможностей, проверка этих отметок может помочь снизить риск нового кандидата, особенно с ограниченным непосредственным опытом в этой области. Как человек, который прошел этот путь несколько лет назад (моя степень магистра была в области прикладной физики), я продолжаю видеть, как мое образование дает мне другую точку зрения на решение проблем по сравнению с коллегами с математическим, статистическим, экономическим или биологическим образованием.

Тот, кто идет по этому пути, также имеет возможность быстро подобрать более сложный материал. Как только вы промокнете, вам захочется в значительной степени понять алгоритмы и получить представление о гиперпараметрах. Это намного проще, если вы привыкли к продвинутой математике.

Совет от профессионала: если вы вообще можете выделить работу по науке о данных / машинному обучению, которую вы проделали до того, как официально начали работать в качестве специалиста по данным, вы можете получить признание за дополнительные годы своего опыта. актуально при переговорах о компенсации. Хотя вы не хотите приукрашивать свою прошлую работу, полезно указать на ваш опыт программирования, анализа данных, расширенной статистики, экспериментального дизайна, разработки алгоритмов или других смежных видов работы.

Новый выпускник по науке о данных. Предполагая, что у вас еще есть время для завершения учебы, поищите любые внеклассные занятия, которые помогут вам набраться опыта. В идеале это предполагает стажировку в команде специалистов по анализу данных. Один из моих прошлых работодателей каждое лето регулярно приводил стажеров и делал предложения в конце сезона наиболее перспективным из них. Это был беспроигрышный вариант, и большая часть сотрудников компании прошла через эту программу. Если стажировка невозможна, у вашего университета может быть главный проект, в который вы можете инвестировать. В Riskified мы сотрудничали с местным университетом, предоставив одной из их команд открытый проект для работы под нашим руководством в качестве краеугольного камня. . Если студенты инвестируют и выполняют действительно хорошую работу (т.е. не просто проходят курс, а то, что квалифицируется как хорошая работа в компании), мы могли бы быть заинтересованы в приеме на работу или, по крайней мере, в написании рекомендательного письма для будущих работодателей. .

Совет от профессионала. Работая в области науки о данных (как и почти в любой другой карьере), вам нужно уметь объяснять вещи людям за пределами вашей области (примечание: никогда не ошибайтесь, думая, что это не так. технические люди не такие умные, как вы). Во время собеседования вас будут часто спрашивать о вашей диссертации. Найдите умного друга с ограниченными знаниями в области машинного обучения, который спросит вас об этом. Можете ли вы объяснить им, чем вы занимались и чем это отличалось от существующих решений? Я взял интервью у нескольких выпускников, которые могли описать все детали своего исследования, но были озадачены некоторыми вводными вопросами высокого уровня (например, почему это исследование важно?).

Наконец, не забывайте, что успех требует обучения на протяжении всей жизни, и пока вы прошли только один этап обучения. Продолжать учиться на работе так же важно и может быть труднее, поскольку оно не так структурировано.

Оптимисты. Многие люди учатся, чтобы стать специалистами по обработке данных с помощью онлайн-курсов и учебных курсов. Конкуренция жесткая, и вы не получите работу в поле, потратив 80 часов. Работодатели будут смотреть на продолжительность ваших занятий / буткемпов и на то, насколько они знакомы - нано-степени на EdX или 6-месячный учебный лагерь будут намного более впечатляющими, чем один курс на Udemy или Coursera.

На мой взгляд, окно возможностей для перехода в науку о данных без обширного формального обучения (например, онлайн-курсов самообучения) сужается. Хотя это все еще выполнимо, вы должны понимать, что есть много людей с поверхностными знаниями в этой области, и для получения вашей первой работы потребуется гораздо больше (по состоянию на сентябрь 2020 года на курс Эндрю Нг было зачислено 3,5 миллиона студентов). Если вы хотите пойти по этому пути, это, вероятно, все равно займет у вас несколько месяцев (читай: сотни часов), конечно, работа и практические проекты с хорошей долей удачи.

Совет от профессионала. Если можете, подумайте о буткемпах, которые имеют подтвержденный послужной список выпускников, начинающих заниматься наукой о данных (даже лучше, если от этого зависит их финансовый стимул). Хотя несколько месяцев очного обучения могут оказаться больше, чем инвестиции, о которых вы думали, они могут иметь решающее значение.

Из-за медленной, но устойчивой тенденции autoML это также означает, что вам нужно продолжать учиться и повышать свой опыт после получения своей первой должности. Всегда нужно опережать автоматизацию на несколько лет, и немного паранойи может быть полезным для долгосрочной гарантии занятости.

Последние мысли

По сравнению с другими высокодоходными профессиями, пользующимися большим спросом, вам не нужно проводить несколько лет в медицинской школе или летать тысячу часов, прежде чем вам разрешат заниматься наукой о данных. Хотя спрос на специалистов по данным высок, большая часть этого спроса - на очень квалифицированных специалистов, которые могут продемонстрировать свою ценность. Вы должны помнить, что, несмотря на отсутствие нормативных барьеров, рыночные силы все еще существуют, и компании не будут платить большие деньги за людей с ограниченным опытом. Более того, новые специалисты по данным требуют много внимания, обучения и поддержки со стороны более опытных специалистов по данным. Поскольку первые несколько месяцев - это почти все инвестиции компании, может пройти год, прежде чем вклад нового специалиста по обработке данных вернется к нулю. Парадоксально, но эта проблема усугубляется отсутствием опытных специалистов по обработке данных - они действительно необходимы для работы над проблемами сейчас и могут потратить лишь определенное количество времени на обучение новых людей.

Это непростой путь, но он определенно полезен. Миру нужно больше великих специалистов по данным, так что приступайте к делу!

— — — — — — — — — — — — — — — —

Спасибо за прочтение! Если вы хотите узнать больше, подпишитесь на нас в нашей публикации Рискованные технологии.