10 ошибок, которых следует избегать, если вы новичок в области науки о данных

Как получить конкурентное преимущество на рынке труда в области обработки данных

Наука о данных - это успех. Тысячи студентов по всему миру записываются на онлайн-курсы или даже на магистерскую программу по наукам о данных.

Область науки о данных - это очень конкурентный рынок, особенно для получения работы (предполагаемой) мечты в одной из крупных технологических компаний. Положительная новость заключается в том, что у вас есть все необходимое, чтобы получить конкурентное преимущество на такой должности, если вы соответствующим образом подготовитесь.

С другой стороны, существует (слишком) много МООК, магистерских программ, учебных курсов, блогов, видео и академий наук о данных. Как новичок, вы чувствуете себя потерянным. Какой курс мне следует посетить? Какие темы я должен изучать? На каких методах мне нужно сосредоточиться? Какой инструмент и язык программирования я должен изучить?

Правда в том, что у каждого специалиста по данным есть свой индивидуальный путь и он склонен к этому пути обучения. Поэтому, не зная вас, трудно сказать, какой подход лучше всего подходит для вас.

Но все специалисты по анализу данных повторяют типичные ошибки снова и снова. Даже зная их, вы не избежите их полностью, но, в конце концов, прекратите выполнять их раньше и быстрее вернетесь на путь к успеху.

Основываясь на моем более чем 20-летнем опыте работы в области науки о данных, возглавляя команды численностью до 150 человек и все еще читая лекции на неполной ставке в одном из ведущих мировых университетов, я обобщил для вас основные ошибки, которые помогут вам быстрее не достичь своей мечты. .

Ошибки указаны в порядке прогресса обучения для начинающих специалистов по анализу данных.

# 1 Тратить слишком много времени на оценку всех различных типов и вариантов доступных курсов, прежде чем вы наконец начнете - или, в конечном итоге, никогда не начнете

Я знаю, что вас завалили все курсы, и вы стараетесь не допускать ошибок. Вы хотите эффективно инвестировать свое время и деньги и выбрать правильный подход, который обещает самый быстрый и лучший успех.

К сожалению, немедленного успеха, как в любой технической или научной области, нет, и для наилучшего возможного успеха вам не будет никакого сравнения.

Дело в том, что сегодня все существующие платформы, академии и институты имеют хорошие курсы. Так что не зацикливайтесь на курсах и не анализируйте их слишком много. Наберитесь смелости и выберите один, пройдите этот курс, а затем выберите другой.

Самый важный аспект - начать и делать. Вы не можете ошибиться здесь, потому что вы не знаете своего путешествия и не знаете, как оно могло бы измениться при выборе другого. Никто не может вам этого сказать. Период.

Также важно понимать, что обучение носит круговой, а не линейный характер. Пройдя один курс по науке о данных, вы не исключаете, что вы перейдете на другой.

Я все еще занимаюсь наукой о данных, машинным обучением и искусственным интеллектом, несмотря на свой многолетний опыт. В каждом все еще таком «простом» курсе для начинающих я обнаруживаю новый аспект и новый взгляд на тему. И это именно то, что наконец делает востребованного специалиста по данным. Чтобы понять все разные точки зрения на тему.

№2. Вы хотите изучить слишком много методов и инструментов одновременно, а не изучать и понимать методы один за другим

Многие начинающие специалисты по анализу данных считают, что наличие как можно большего количества методов, упомянутых в резюме, поможет быстрее получить работу. Но все наоборот. Когда вы подаете заявление о приеме на работу, а вы только шесть месяцев назад начали заниматься наукой о данных для каждого рекрутера, становится ясно, что это модное слово, за которым нет смысла.

Если мы посмотрим на регрессионные модели, то есть много книг только о регрессии. Существует более 50 типов регрессии, и каждый имеет свои предварительные условия. Так что одно лишь «регресс» в вашем резюме ни о чем не говорит. Кроме того, регрессионные модели по-прежнему являются наиболее важными моделями для приложений и служат основой понимания науки о данных в целом.

Вы должны понимать, что решает метод; каковы предположения; что означают параметры; какие подводные камни; и так далее и тому подобное.

На основе резюме и того, как описываются знания о регрессии, каждый опытный рекрутер - а сегодня - алгоритмы, лежащие в основе процесса, - может определить глубину вашего понимания.

Лучше иметь глубокие знания и опыт только в небольшом количестве методов, чем знать многие из них без содержания.

# 3 Вы кодируете все с самого начала, потому что думаете, что это поможет вам программировать лучше и быстрее

Приступая к программированию, люди думают, что они должны быстро начать кодировать и перепрограммировать как можно больше алгоритмов. Кроме того, здесь вы должны сосредоточиться на понимании нескольких, а не на количестве.

Во-первых, вам необходимо понять предпосылки кодирования: линейная алгебра, математическая индукция, дискретная математика, геометрия - да, это сила отличных программистов, но о ней часто забывают специалисты по данным, статистике и теории вероятностей, исчислению, булевой алгебре и т. Д. теория графов.

Я не стал лучше и быстрее кодить больше. Я хорошо разбирался в программировании, понимая математические основы, просматривая чужой код, а также запуская и тестируя их на различных данных и задачах.

Да, кодирование важно, но более важно понимать (хорошую) архитектуру кода. И это можно узнать, только просмотрев другой код.

Дело в том, что код становится все более и более товаром, и даже не существует инструментов без кода. Различие больше не будет между теми, кто умеет кодировать, и теми, кто не может, но теми, кто понимает его архитектуру, и теми, кто этого не делает.

Я покажу вам еще один пример: я полагаю, вы уже использовали TensorFlow. Но вы понимаете, что это такое? Что оно делает? И почему он называется «TensorFlow»? Вы знаете, что такое тензор? Не только механический расчет тензорного произведения, но что это означает геометрически?

# 4 Изучая теорию, вы думаете, что знаете все, но упускаете достаточно практического опыта

Изучение науки о данных - это попытка и ошибка. Только когда вы накопите как можно больше опыта, сделав все ошибки и исправив их, вы получите более глубокое понимание.

Теория правильная и жизненно важная. Вам нужно понимание основ.

К сожалению, на практике это редко работает так, как в теории. Напротив, это часто работает именно так, как вы уже поняли, делать этого не следует.

Итак, вы должны начать сначала с практических примеров. Часто вы чувствуете себя не готовым к практической работе: недостаточно знаний основ или опыта программирования.

Но я настоятельно рекомендую: начинать с самого начала, даже если вы не чувствуете себя готовым выполнять упражнения. Это не должен быть однодневный или недельный проект. Достаточно небольшого 1-2 часового проекта.

Вы можете начать с инструмента без кода, такого как RapidMiner или KNIME, или взять чужой код и применить его. Например. возьмите простой код анализа настроений и используйте его в твитах или описании продукта. Затем вы можете начать изменять код для других примеров и сравнивать результаты.

Когда вы учились говорить в детстве, вы начинали с отдельных слов или выражений из двух или трех слов. И постепенно вы научились понимать язык. То же самое и с практическим опытом в области науки о данных.

Совет от профессионала: обучение проходит по кругу. Итак, сохраните свою работу. Позже вы можете вернуться, улучшить его, переместить на GitHub и добавить визуализации с помощью Tableau.

# 5 Вы считаете, что сертификаты являются конкурентным преимуществом для получения работы в области науки о данных

Сертификаты в порядке. Есть много голосов, которые говорят вам, что вам не следует проходить сертификацию. Но они могут служить мотивацией и, наконец, официально показывают ваш прогресс и ваше стремление учиться. Сертификаты до сих пор делаю. В этом нет ничего плохого, и когда вы тратите время, это вполне законно.

Но это не является отличительным признаком рынка. Дело в том, что есть тысячи людей, которые имеют одинаковые сертификаты. Итак, чтобы иметь конкурентное преимущество, вы должны выйти за рамки этого.

Например, один мой студент обратился ко мне за поддержкой в ​​возможности стажировки в области финансов. Он хотел применить то, что он узнал, и познакомиться с культурой и сотрудничеством в команде по анализу данных. Я мог бы разместить его в банке, и он пишет на основании этого семестровую диссертацию. Да, заниматься одновременно учебой, стажировкой и семестровой диссертацией - это стресс. Но это даст ему неоценимое конкурентное преимущество при предложениях о работе.

# 6 Вы беспокоитесь о мнении других людей вместо того, чтобы строить собственное мнение на основе фактов

Большинство начинающих специалистов по анализу данных беспокоятся о мнении других специалистов по данным. И чем больше аргументов они слышат, тем больше сбиваются с толку. Несмотря на то, что для пути ясности требуется заблуждение, оно не должно оставаться устойчивым состоянием.

Каждый специалист по данным - это личность со своим опытом, обучением, карьерным путем и мнением. Я привык говорить: «Если у вас в комнате два специалиста по данным, у вас есть как минимум четыре разных мнения».

Мнения могут служить источником вдохновения и руководством для поиска информации, а не самой информацией.

Ищите неопровержимые факты. Сделайте свои логические выводы, подтвердите и обновите их снова. Это важный навык для успешного развития вашей карьеры в области науки о данных.

# 7 Не заботиться о бизнесе и знании предметной области

Многие специалисты по данным думают, что могут применить эти методы к любой проблеме и к любой отрасли, но я могу сказать вам, что это неверно, исходя из более чем 20-летнего опыта.

Слишком часто я видел, как специалисты по анализу данных представляли свои выводы деловым людям, и реакция была такой: «О, мы уже это знаем. Нам нужно «почему это происходит» и «как это решить». Или, в худшем случае, «это полная чушь, потому что наш бизнес работает не так». Бум!

Важнее владеть предметными знаниями, чем владеть всеми сексистскими и причудливыми методами. Специалист по данным решает бизнес-проблему, а не техническую проблему. Решая бизнес-проблему, вы приносите пользу бизнесу компании, а ценность вашего решения зависит от вас. Вы делаете это успешно, когда знаете свое дело.

Я работал в разных отраслях. Каждый раз, прежде чем я даже начал заниматься бизнесом, я много читал об отрасли.

  • Я начал с Википедии, узнал общую картину и о компаниях
  • Я просмотрел годовые отчеты и информацию о взаимоотношениях с инвесторами 10 ведущих компаний отрасли.
  • Я прочитал все новостные статьи за последние несколько лет об этой отрасли и компаниях.
  • Я связался со своими контактами в LinkedIn, которые работают в этой отрасли

Только тогда я начал взаимодействовать с бизнесом.

Половина вашего обучения должна включать в себя развитие отраслевых и бизнес-знаний.

# 8 Вы не учитесь и учитесь постоянно

Очень легко отвлечься или рано сдаться, потому что вы не понимаете предмета. Изучение науки о данных - это марафон, а не спринт. Итак, очень важно выстроить распорядок для непрерывного и последовательного изучения. Как и в марафонских тренировках, вы тренируетесь небольшими группами, но ежедневно.

Кроме того, как было написано ранее, обучение является циклическим. Один раз изучив тему, еще не значит, что вы ее усвоили.

Позвольте привести пример. На лекциях по математике и финансам мне пришлось выучить много предельных теорем. Экзамен прошел отлично, и я убедился, что понимаю их. Но семь лет спустя, когда мне пришлось пересматривать код для оценки финансовых продуктов со сложной структурой, весы упали с моих глаз, и я понял, что не понимал этого до того момента, пока не проанализировал код.

Итак, бронируйте ежедневно или, по крайней мере, еженедельно несколько часов, чтобы учиться. Неважно, начинающий вы или уже старший научный сотрудник.

Обучение должно состоять из новых тем по науке о данных, уже изученных тем, но с другой точки зрения, например другой курс или книга, новые технологии и технологические тенденции, отраслевые и бизнес-знания, визуализация данных и их повествование, а также приложения к данным.

Это добавляет уровень понимания, и на собеседовании вы сможете дать убедительные ответы, представив целостный взгляд с разных точек зрения.

# 9 Никаких историй с данными

На работе в области науки о данных вы в первую очередь будете сообщать о своих выводах нетехническим специалистам, в частности, людям из бизнеса. И бизнес финансирует вашу работу. Без их обязательств ваша работа и команда специалистов по анализу данных не существовали бы.

Ваша задача - приносить пользу бизнесу. Не следует применять причудливые методы только ради приложения.

Мой друг возглавляет глобальный банк по науке о данных. Когда они нанимают специалистов по данным, они отправляют им набор данных за две недели и просят провести 20-минутную презентацию. Никаких дополнительных данных не дается. Они хотят видеть повествование. Их не интересуют применяемые методы - за исключением того, что кандидат скажет абсолютную чушь об используемых методах. Они хотят видеть, во-первых, формулировку бизнес-проблемы и то, почему ее важно решить. Во-вторых, что должно быть решено и последнее, как это решается и результат в бизнес-контексте. «Это самая важная работа, которую мы делаем за весь день. Кандидат не должен быть идеальным в этом, но должен показать, что он / она понимают, что важно в нашей работе ».

Итак, изучайте рассказывание историй данных - есть даже бесплатные курсы по этому поводу - и изучайте визуализацию данных в бизнес-контексте.

# 10 Самостоятельное обучение без взаимодействия с сообществом специалистов по науке о данных

Многие люди думают, что они могут изучить науку о данных, упорно трудясь. Все остальные специалисты по обработке данных рассматриваются как конкуренты, и один из них не желает обмениваться знаниями.

Но жить в своем мире, где вы читаете и изучаете только на основе вашего выбора, очень предвзято, и многие точки зрения на тему или метод отсутствуют. Кроме того, отсутствует открытый дискурс по теме и получение опыта в аргументации - навык, необходимый любому специалисту по данным.

Любой опытный рекрутер после одного или двух вопросов знает, являетесь ли вы представителем одного человека или у вас есть яркая сеть, которая помогает вам приобретать знания в геометрической прогрессии. Это приносит пользу компании и увеличивает вашу рыночную стоимость и спрос.

Итак, очень важно развивать сеть. Это можно сделать, посетив буткемпы, хакатоны и встречи Meetup.

Теперь вы теоретически знаете, чего следует избегать.

Любая из этих ошибок может стать препятствием для вашей работы в области анализа данных.

Я знаю, что вы все равно сделаете несколько таких ошибок. Я не отличаюсь. Человеку свойственно думать, что «я другой», хотя данные говорят об обратном. Но осознание этих потенциальных ошибок поможет вам быстрее изменить свой путь и, таким образом, стать более востребованным специалистом по данным.

Тебе нравится моя история? Здесь вы можете узнать больше.