Мое путешествие в науку о данных, что я бы сделал иначе и основные выводы

В этой статье я проведу вас через свой путь в науку о данных и сделаю некоторые из наиболее важных выводов из моего опыта. В качестве оговорки, я ни в коем случае не являюсь опытным специалистом по данным, и все, что изложено в этой статье, является просто моим собственным опытом / мнением.

Средняя школа

В старшей школе меня привлекали как медицина, так и инженерия. В общем, мне нравились математика и естественные науки, и я решил, что оба пути сделают карьеру увлекательной и приносящей удовлетворение. Однако в первой половине старшей школы я был немного ленивым учеником и никогда не уделял достаточно времени учебе. На первом и втором курсе я медленно развлекался, не сомневаясь в своей компетентности в области инженерии или медицины. Это состояние быстро меня догнало.

В конце концов я решил «проверить» свои способности к инженерии, записавшись на первый курс физики AP - предмет, который, как многие знают, не для слабонервных. Неудивительно, что мне потребовалось всего две недели, прежде чем я бросил класс из-за того, что я считал его безжалостным трудным (я все еще считаю физику чрезвычайно сложной сегодня и с большим уважением отношусь к физическим специальностям). Мои надежды стать инженером рухнули, поскольку я знал, что физика является фундаментальной почти для всех областей инженерии. Это был первый раз, когда я почувствовал себя некомпетентным и неспособным осуществить мечту.

Я провел остаток средней школы в страхе перед математикой и любыми другими науками, в которых она широко использовалась. В результате я решил использовать статистику вместо расчетов в старшем классе, потому что знал, что со статистикой будет не так сложно. К счастью, моя трусость в конечном итоге принесла очень плодотворное благословение - вершину в мир науки о данных.

После первой недели статистики я влюбился в эту тему. Я нашел его очень интуитивно понятным, понял его важность и показал лучшие статистические показатели, чем в любом другом классе. Представленные формулы было легко понять (конечно, я не знал, что статистика имеет глубокие корни в исчислении и других более продвинутых областях математики), и я начал восстанавливать академическую уверенность (спасибо, мистер Давенпорт).

Когда пришло время выбрать специализацию в колледже и подумать о выборе карьеры, я исследовал вакансии, которые требовали опыта в статистике; Я быстро наткнулся на эту знаменитую статью:



Я не мог поверить, что это действительно была карьера - тем более карьера, которая пользовалась большим спросом. Прочитав эту и несколько других статей, я был полностью убежден, что хочу стать специалистом по данным. К сожалению, мне не потребовалось много времени, чтобы обнаружить, что наука о данных требует обширного математического образования - опыта, которого у меня не было, и я был слишком напуган, чтобы заниматься им. Что еще хуже, я узнал, что для большинства должностей в области науки о данных требуется степень магистра в технической области, и я даже не был уверен, что смогу получить степень бакалавра на тот момент. Хотя мои надежды на то, что я стал специалистом по обработке данных, угасали, я никогда не мог выбросить из головы эту карьеру, поскольку искал другие варианты.

Несмотря на серьезную неуверенность в себе, я все же попытал счастья и подал документы на несколько инженерных специальностей. Мне отказали во всех из них (шокирующе), и во многих моих письмах с отказом мне говорили, что мне «не хватает опыта» в математике и информатике - утверждение, которое я не мог оспорить.

В конце концов я решил начать свой первый год обучения в колледже по специальности финансы. На самом деле я не хотел работать в сфере финансов, но полагал, что это обеспечит стабильную карьеру, в которой в определенной степени реализована статистика.

Хотя я уклонялся от науки о данных и технических областей в целом (отчасти из-за множества писем с отказами, которые я получал), я решил, что больше не собираюсь позволять себе бояться математики. Я не собирался мириться со своим «неопытностью».

Все лето после школы я посвятил изучению исчисления онлайн и полюбил этот предмет больше, чем статистику. Тот факт, что почти все физические системы могут быть описаны на языке вычислений, был ошеломляющим - я не мог поверить, что так долго ждал, чтобы научиться этому.

Я потратил так много времени на обучение, что смог выполнить тест по математике 1 и 2 до начала первого года обучения. Моя любовь к математике возродилась, и, что наиболее важно, я преодолел первое препятствие, необходимое для того, чтобы попасть в науку о данных.

«Весь мир представляет собой дифференциальное уравнение, а мужчины и женщины - всего лишь переменные». - Бен Орлин

Колледж

Во время моего первого семестра на финансовом факультете я был неудовлетворен. Я приобрел некоторую уверенность в результате тестирования, выходящего за рамки математического анализа, и я знал, что способен изучать что-то более серьезное и увлекательное. Моя мечта стать специалистом по обработке данных сохранялась, но я все еще был убежден, что это невыполнимый вариант. Я знал, что мне нужно переключиться на специальность, которая мне нравится.

Я все еще боялся математики, но знал, что мне нужно изучить что-то очень близкое к ней. В то же время меня интересовали финансы, и я не хотел тратить зря пройденные курсы. В качестве компромисса я решил сменить специализацию на актуарную науку, потому что это, казалось, предлагало хорошее сочетание математики и финансов (не слишком много).

Следующие два семестра были заполнены курсами финансов, математики и информатики, из которых мне больше всего понравились курсы математики. Меня увлекали математические вычисления, линейная алгебра и дифференциальные уравнения, и мои оценки постоянно улучшались. С другой стороны, я изо всех сил пытался найти мотивацию для подготовки к актуарным экзаменам, и мне не очень нравились курсы по финансам.

Осенью на втором курсе я начал активно заниматься актуарной стажировкой. Практически каждый день в моих школьных рукопожатиях публиковались сообщения о стажировках, и я подавал заявки на каждого из них (метод, который я люблю называть «применением гнева»). Я также приобрел достаточно уверенности, чтобы подать заявку на несколько стажировок по науке о данных / аналитике, которые время от времени появлялись. Большинство моих усилий не увенчались успехом, так как почти все заявки были отклонены или проигнорированы.

Наконец, после 100 безнадежных обращений мне наконец дали интервью в известной страховой компании. Это была актуарная должность начального уровня, и я был полон решимости стать лучшим собеседником, которого они когда-либо видели. Мой план состоял в том, чтобы выполнить проект анализа данных с использованием известного набора данных о медицинском страховании:



Я использовал R, который я только начал изучать через YouTube, для создания регрессионной модели, которая предсказывала общие медицинские расходы, которые понесет человек, с учетом его различных демографических характеристик и характеристик здоровья. Затем я создал визуализации и сводки результатов модели и собрал все в отчет. Следует отметить, что в то время я очень мало знал об анализе данных или машинном обучении; все концепции, включенные в мой отчет, были получены на лету в дни, предшествующие собеседованию. Тем не менее, я был уверен, что этот отчет выделит меня среди других кандидатов. Я надеялся, что мои усилия компенсируют тот факт, что я не сдавал никаких актуарных экзаменов.

Теперь любой, у кого есть актуарный опыт, не должен удивляться, узнав, что интервью было полной катастрофой. Интервьюера наплевать на отчет, который я ему представил, и ему практически нечего было сказать мне, когда он обнаружил, что я не сдавал никаких экзаменов. Ближе к концу интервью он спросил, есть ли у меня к нему вопросы. Первый вопрос, который пришел в голову, был: «Как вы используете математику в своей работе?». Он тонко посмеялся надо мной и ответил: «Ну, мы не вычисляем никаких интегралов, если вы это имеете в виду». Раздраженный его снисходительностью, я спросил: «Итак, чем вы занимаетесь каждый день?». Он начал описывать свою повседневную жизнь, пока я постепенно переставал обращать внимание, зная, что у меня нет шансов попасть на эту стажировку. Я мог сказать, что этот человек не был увлечен своей работой, поэтому я не был разочарован тем, как плохо прошло интервью.

Этот провал интервью, хотя и смущающий, привел к огромному осознанию: я любил готовиться к нему. Меня не волновало, что мой отчет по машинному обучению был полностью проигнорирован, потому что мне нравился весь процесс его создания. Это был мой первый опыт работы с наукой о данных, и я знал, что меня полностью зацепило. Мне пришлось стать специалистом по данным.

В следующем семестре я преодолел свой страх перед математикой и решил сделать ее своей основной. Математические специальности в моем университете должны выбирать между прикладной математикой, чистой математикой и статистикой как специализацией. Конечно, я выбрал статистику в качестве своей специализации и сосредоточил свою учебную нагрузку на приложениях для анализа данных. Я продолжал влюбляться в математику, статистику и информатику, и я часто обнаруживал, что изучаю эти предметы в свободное время.

Одним из важнейших моментов на моем пути к тому, чтобы стать специалистом по обработке данных, было участие и место в нескольких соревнованиях вместе с командой из моей школы. Одним из конкурсов, в которых мы участвовали, был DataFest Американской статистической ассоциации (ASA):



В этом соревновании мы использовали случайные леса, чтобы классифицировать, сколько времени потребуется регбисту, чтобы восстановиться после тренировки. Мы заняли 2-е место и были награждены «Лучшей визуализацией» за набор диагностических графиков, описывающих результаты наших моделей. Это был мой первый опыт работы с реальной жизнью, большими и беспорядочными наборами данных - опыт, который оказался бесценным, поскольку он привел к моей первой стажировке.

Стажировки

Стажировки, без сомнения, были основной причиной, по которой я смог получить работу в области науки о данных в 21 год. Это, конечно, не прошло бесследно. Как многие знают, процесс прохождения стажировки, не говоря уже об интервью, может быть изнурительным. Это было очень похоже на меня.

Приближался конец моего второго курса, и я уже безуспешно подавал заявки на сотни стажировок. К концу марта я решил, что мне, скорее всего, не повезло. Я начал готовиться к тому, чтобы провести лето, работая в ресторане и продолжая занятия. Однажды ночью, просматривая на телефоне информацию о стажировках, я увидел заголовок, который привлек мое внимание: «Стажер-аналитик данных - главный специалист по нефти и газу». Описание выглядело идеально для моего набора навыков в то время, но заявка была открыта в течение нескольких месяцев, поэтому я знал, что меня вряд ли рассмотрят. Несмотря на это, я решил, что это будет последняя практика, на которую я подавал заявку.

На следующее утро мне позвонили: я был последним соискателем, который они собирались давать на собеседование. Я не мог в это поверить. Из более чем 200 соискателей они отобрали 8 для собеседования, и я был самым последним. Это была самая большая профессиональная возможность, которую мне когда-либо давали, и я знал это. Мое постоянное применение гнева имело еще один шанс окупиться.

Тот, кто упал и встал, сильнее того, кто никогда не пробовал. Не бойтесь неудач, лучше бойтесь не пытаться .
- Рой Т. Беннетт, Свет в сердце

Мое первое впечатление об интервью было ужасным. Мне задавали много вопросов о нефтегазовой отрасли, о которой я ничего не знал, и я даже запутал великого певца и автора песен Филиппа Филлипса из энергетической компании Phillips 66. Само собой разумеется, я думал, что интервью было больше смущение, чем мой первый. Интервьюеры думали иначе. После собеседования они сказали мне, что мне позвонят в течение недели, если они захотят двигаться дальше. У меня не было никаких ожиданий.

К сожалению, в тот же день мой телефон зазвонил . Они уже приняли решение и предложили мне стажировку. Я знал, что мне предложили стажировку не потому, что я был технически квалифицирован (я определенно не был), а потому, что я мог общаться наиболее эффективно. Тем не менее, я был в восторге.

Мое время, проведенное в Chief, было бесценным. Я не только получил практический опыт применения методов науки о данных с данными из реального мира, но также получил более глубокое понимание того, как преодолеть разрыв между написанием кода и предоставлением ценности. Что наиболее важно, эта стажировка заложила основу для остальной части моей карьеры в области науки о данных. Это позволило мне получить следующую стажировку в консалтинговой фирме по нефти и газу, и в конечном итоге это привело к моей последней стажировке в моей нынешней компании.

Что бы я сделал иначе

Я не очень сожалею на своем пути к тому, чтобы стать специалистом по данным, поскольку я твердо верю, что все развернулось должным образом. Однако, если бы мне пришлось сделать это снова, я бы начал изучать математику и информатику в гораздо более молодом возрасте. В частности, я бы не избежал математического анализа в старшей школе и начал бы учиться в колледже по специальности математика.

Основные выводы

Ниже я перечислил некоторые ключевые выводы, которые, на мой взгляд, важны для успешной карьеры в области науки о данных.

  1. Развивайте сильные математические навыки. Чтобы внести ясность, я не верю, что каждому специалисту по обработке данных необходимо иметь математическое образование, но для специалиста по обработке данных абсолютно необходимо иметь прочную математическую основу. В частности, специалисты по анализу данных должны хорошо разбираться в вычислениях, линейной алгебре и вероятности / статистике. Причина этого в том, что наука о данных очень похожа на шахматы. Обычный человек может легко узнать, как фигуры на шахматной доске могут двигаться. Однако простое знание того, как движутся фигуры, не делает человека хорошим шахматистом. Чтобы быть хорошим шахматистом, необходимо тщательно изучить стратегию и предвидеть стратегию противника. Когда что-то идет не так, опытный шахматист должен полагаться на эти три вещи, чтобы выбраться из ситуации. Таким же образом любой может научиться программировать модель машинного обучения или проводить базовый анализ данных, просто посмотрев видео на YouTube. Проблема в том, что в этих руководствах используются наборы данных игрушек, которые намного чище, чем большинство реальных данных. В этих руководствах ничего не происходит неправильно, тогда как при работе с реальными наборами данных все идет не так, как надо. Специалист по анализу данных должен полагаться на прочную теоретическую основу, чтобы понять, почему что-то пошло не так и что необходимо для ее устранения .
  2. Изучите основные принципы и основы разработки программного обеспечения. Лично мне больше всего не хватает этой области. Обязанности инженеров-программистов и специалистов по обработке данных стали частично совпадать. В результате специалисты по обработке данных становятся все более ответственными за максимально возможное приближение своих моделей / результатов к производственным. По этой причине я считаю, что специалистам по обработке данных важно понимать общие методы разработки программного обеспечения. В частности, каждый специалист по данным должен быть знаком с git и хотя бы одним веб-фреймворком (Flask, Django, Plotly Dash, Streamlit и т. Д.). Как минимум, эти навыки улучшат способность специалистов по обработке данных представлять свои выводы заинтересованным сторонам. Например, вместо того, чтобы представлять модель заинтересованным сторонам в слайд-шоу или записной книжке, специалист по анализу данных может создать простое приложение POC Streamlit, которое позволяет взаимодействовать с моделью. Пока что мне это удалось. Веб-фреймворки также могут использоваться для автоматизации анализа данных и могут использоваться как чрезвычайно ценный внутренний инструмент.
  3. Овладейте навыками межличностного общения. Это, безусловно, самый важный навык, который нужно освоить. Проще говоря, успешный специалист по данным должен уметь разговаривать с людьми на хорошем уровне. Я знаю, что это звучит до боли очевидным, но может быть шокирующе трудно прийти людям на технических должностях, которые действительно могут вести законные разговоры. Важно заботиться о людях, с которыми вы работаете, выслушивать их и ясно доносить до них свои идеи. Более того, овладение межличностным общением жизненно важно для объяснения результатов проекта заинтересованным сторонам. Каким бы ярким ни был проект, если его не понимают заинтересованные стороны, он практически бесполезен.
  4. Простое решение обычно является лучшим решением. Для большинства бизнес-задач не требуются нейронные сети с 15 миллиардами параметров для создания ценности. Всегда начинайте с самого простого решения и при необходимости добавляйте сложность.

Спасибо за чтение! Надеюсь, вам понравилось узнавать о моем новом путешествии в науку о данных и что эта статья оказалась для вас полезной.