Проект или нет проекта?

Почему работа над проектами данных стоит вашего времени

В некоторых недавних статьях утверждалось, что выполнение проектов не поможет вам получить эту труднодостижимую работу в области науки о данных. Хотя я согласен с тем, что если вы тратите свое время исключительно на работу над проектами и пренебрегаете подготовкой к собеседованию и общением, тогда да, вам будет действительно трудно получить работу (это верно для любой области, а не только для науки о данных).

Но я также твердо верю, что проекты должны составлять основу ваших усилий по поиску работы. Позвольте мне высказать несколько мыслей, которые, надеюсь, убедят вас, почему работа над проектами стоит вашего времени и как лучше всего представить свои выводы таким образом, чтобы это могло привлечь внимание работодателей (и других заинтересованных сторон).

Проекты не только для поиска работы

Есть несколько причин работать над проектами. Да, главный для многих - это найти работу, но есть и другие причины, по которым нужно заниматься своими собственными проектами обработки данных:

  • Приучите себя к новым концепциям - один из лучших способов узнать что-то новое - это работать над этим. Многое из того, что я узнал о науке о данных, я узнал, работая над собственными проектами. В проектах должно быть гораздо больше того, что вы хотите изучить и узнать, а не того, что, по вашему мнению, хотят видеть менеджеры по найму и рекрутеры. Если вы работаете над чем-то только потому, что думаете, что это может привлечь внимание работодателей, то это, вероятно, окажется довольно тусклым.
  • Изучение чего-либо. Самое интересное начинается после того, как вы овладеете концептуальными аспектами модели. Тогда пришло время использовать модель, чтобы исследовать то, что вас интересует, и произвести что-то проницательное.
  • Наличие библиотеки рабочего кода, к которой вы можете вернуться. Это не обязательно поможет вам найти работу (хотя может помочь вам быстрее выполнять домашние задания от работодателей), но это поможет вам бегать по земле и преуспеть, когда получишь работу. Я сбился со счета, сколько раз осознавал, что то, что мне нужно делать на работе, почти идентично тому, что уже есть на моем GitHub. И да, я знаю, что мы можем копировать и вставлять из Stack Overflow, но я считаю, что намного проще и безопаснее работать с кодом, написанным и проверенным мной в прошлом.
  • Развлечение (и знакомство с умными людьми) - наука о данных должна приносить удовольствие. Уоррен Баффет и Чарльз Мангер анализировали акции, даже если они не получали за это финансового вознаграждения, потому что им нравится этим заниматься. Это также, вероятно, основная причина того, почему они так хороши в этом. Что касается науки о данных, есть много других людей, которым это тоже нравится. А если вы обнаружите, что исследуете похожие темы, это отличная возможность пообщаться и найти возможности для сотрудничества (и учиться друг у друга).
  • Создание вашего профессионального бренда - ваш профессиональный след должен выходить за рамки повседневной работы. Так что то, что вы делаете для его развития, должно выходить за рамки вашей повседневной работы.
  • Необязательность - вы никогда не знаете, куда вас может привести интересное понимание (конечно, сопровождаемое хорошо написанным сообщением в блоге). Лично через мои проекты и блоги я получил возможность познакомиться с интересными людьми со всего мира и сотрудничать с людьми, которые мне нравятся, над интересными проектами. Кто знает, может быть, в какой-то момент я напишу книгу (не уверен, хорошо ли это, ха). Я не делаю ставки на это, но, делая все возможное, чтобы производить работу, которая мне интересна, я обнаружил, что возможности начали находить меня, а не наоборот.

Некоторые из причин, которые я перечислил выше, могут не привести к немедленным выплатам, связанным с трудоустройством, но они делают вас лучшим специалистом в области данных (и мыслителем). Вы можете сравнить влияние проектной работы с влиянием хорошей диеты на ваше здоровье - нужно время, чтобы проявить себя преимущества, но они реальны, и чем дольше вы это делаете, тем больше они усугубляются.

Проекты должны продемонстрировать ваш мыслительный процесс и аналитические способности

Некоторые части науки о данных быстро превращаются в товар. В настоящее время никому не платят за способность обучать случайный лес. Как и в любой другой профессии, основанной на знаниях, ваша способность делать выводы из данных гораздо важнее, чем ваша способность выбирать между и запускать разные модели машинного обучения.

По правде говоря, если вы можете сделать следующее:

  1. Задавайте правильные вопросы (те, которые действительно способствуют достижению бизнес-результатов).
  2. Выберите подходящие анализы или эксперименты, чтобы ответить на эти вопросы.
  3. Найдите надежные (и чистые) данные.

Значит, вы уже почти закончили путь. Обратите внимание, что шаги 1 и 2 посвящены пониманию проблем, стоящих перед вашим бизнесом, а не количеству количественных или статистических данных.

Если вы можете сделать все это, то правда в том, что на самом деле не имеет значения, используете ли вы логистическую регрессию или машину опорных векторов для получения окончательного результата. Если вы выберете правильный анализ и данные, у вас будут разумные шансы на получение проницательного результата.

Так что это умение, которое вы должны стремиться развивать, работая над проектами. Разрабатывайте и выполняйте проекты таким образом, чтобы имитировать ваш подход и решение проблем на рабочем месте. Он не только тренирует вашу аналитическую мышечную память, но и предоставляет работодателям доказательства того, что вы проницательный и дифференцированный мыслитель.

Различать, различать, различать

Это также означает, что вам не следует перефразировать тот же самый аромат моментального проекта, который уже делают все остальные и который уже был проанализирован до смерти (если он действительно вас не интересует, и вы не хотите его изучать). Глупо делать то же самое, что и все, и ожидать результата выше среднего.

Правильно представляйте и сообщайте о своих выводах

Хорошо, вы создали модель, загрузили очищенный и прокомментированный код на свой GitHub и добавили маркер о своем проекте в LinkedIn. Выполнено?

Ни за что! Нет, если только вы не хотите, чтобы об этом знали. Пришло время поделиться этим со всем миром. Самый очевидный способ (на мой взгляд) - это хорошо составленный пост в блоге. Вам следует:

  • Начните с четкого и краткого объяснения цели и основных выводов вашего проекта.
  • Подробно опишите проблему, которую вы пытались решить (и почему это важно).
  • Подробно опишите свой подход и объясните, почему вы считаете его эффективным и дифференцированным.
  • Говоря простым языком, расскажите, какие статистические концепции или количественные инструменты вы использовали, в том числе о том, как они работают (на высоком уровне) и почему вы их выбрали.
  • Подробно расскажите о своих ключевых выводах. Четко объясните, почему они важны для общей картины. Никого не волнует, что у вас R² 0,91. Скорее, людей волнует, как они могут использовать вашу модель для решения реальных проблем.

Я не могу достаточно подчеркнуть ценность простых для понимания примеров, наглядных пособий и аналогий. Вы стремитесь привлечь и увлечь читателей, а не утомлять их учебниками, как прозой. Я все еще развиваю этот навык, но вот как я попытался наглядно объяснить, что такое дерево решений.

Я постарался сделать пример максимально простым и наглядным. Один из критериев, который я использую лично, - если я показываю это изображение без сопровождающего пояснительного текста, будет ли он понятен?

Вот моя попытка изобразить градиентный спуск. Ничего революционного здесь не было, но я изо всех сил старался с моими очень ограниченными навыками графического дизайна показать что-то, скатывающееся с высокого места на низкое (это то, что градиентный спуск пытается сделать по духу - найдите минимум).

Обратите внимание, что в обоих объяснениях очень мало математики. Внутренняя работа алгоритма менее важна, чем понимание того, чего алгоритм пытается достичь в духе.

Заключение

Прежде чем уйти, я хочу еще раз подчеркнуть, что работа над проектами должна приносить удовольствие. Работа - это еще не все. И если вы находите каждый проект с данными долгим и утомительным, возможно, наука о данных не подходящая область для вас. И это нормально, есть много других высокооплачиваемых и интеллектуально интересных профессий. И что еще более важно, есть способы лучше провести время. Ваше здоровье!

Другие сообщения, связанные с наукой о данных и бизнесом:

Что такое RNN

Бизнес-стратегия для специалистов по данным

Сколько анализа слишком много

Бизнес-моделирование с помощью Python

Понимание PCA

Понимание теоремы Байеса