Строим свой собственный мост от студента к профессионалу

Ранее в этом году я прошел очный онлайн-курс по науке о данных Flatiron School. Программа занимала около 40 часов в неделю в течение 5 месяцев и охватывала практически все, что я ожидал от учебного курса по науке о данных (плюс некоторые вещи, о которых я даже не слышал до того, как начал!). Конечно, невозможно, чтобы какой-либо учебный курс охватил все, что нужно знать специалисту по данным, и дело даже не в этом. Заявленная цель учебного лагеря Flatiron School - познакомить учащихся с широким спектром материалов и научить их самостоятельно приобретать новые навыки.

После окончания учебы и начала поиска работы я решил заполнить некоторые пробелы в своей подготовке. Чтение объявлений о вакансиях научило меня многому о том, что ищут работодатели и какие конкретные навыки требуются для работы, которая мне больше всего нравилась. В этом посте я расскажу о некоторых ресурсах, которые я использовал после буткемпинга, чтобы расширить и углубить свои знания в области науки о данных.

Учебная программа учебного лагеря

Flatiron School постоянно обновляет свой учебный план по науке о данных, но просто для контекста вот общий план того, что мы рассмотрели:

  • Общее программирование на Python с особым упором на NumPy, Pandas и Matplotlib
  • Git, GitHub и принципы контроля версий
  • Основы визуализации данных
  • Регрессия (линейная, логистическая, множественная линейная, полиномиальная и т. Д.)
  • SQL и общие принципы проектирования баз данных
  • Основы объектно-ориентированного программирования
  • API, парсинг веб-страниц и работа с файлами JSON
  • Широкий обзор статистических тем, включая комбинаторику, перестановки, распределения, центральную предельную теорему, проверку гипотез и байесовскую статистику.
  • Анализ временных рядов
  • Основы линейной алгебры
  • Обзор алгоритмов и методов машинного обучения, включая k ближайших соседей, деревья решений, случайные леса и другие методы ансамбля, опорные векторные машины, PCA, k средних и системы рекомендаций
  • Небольшое введение в Spark через PySpark
  • Основы теории графов / сетевой анализ
  • Основы НЛП
  • Обзор тем глубокого обучения, включая RNN, CNN и трансферное обучение
  • Небольшое введение в AWS и как развернуть алгоритм машинного обучения в производственной среде.

Вихревой тур! Я чувствовал (и до сих пор чувствую) действительно хорошо по поводу широты и глубины того, что мы охватили. Но как только я действительно начал читать объявления о вакансиях, меня вдохновило оттачивать свои навыки или развивать новые в нескольких областях, описанных ниже.

SQL

Мы рассмотрели SQL на моем учебном курсе, и я использовал его для извлечения данных из базы данных для одного из моих портфельных проектов. Но после выпуска я начал понимать, что SQL действительно, действительно важен в профессиональном мире науки о данных. Почти в каждом объявлении о вакансии упоминается какая-либо форма SQL, и SQL особенно заметен в рекламе аналитиков. Хотя я мог подробно обсудить достоинства различных моделей машинного обучения, я беспокоился, что не смогу пройти техническое собеседование по SQL.

Поэтому я сделал своей первоочередной задачей улучшить свои навыки работы с SQL после окончания учебы. Я начал пытаться решать проблемы на HackerRank, но меня это немного обескураживало. Хотя я мог увидеть решение сложной проблемы, не было объяснения, почему это решение сработало.

У меня был лучший опыт работы с серией курсов «SQL для бизнес-аналитиков» на DataCamp. Некоторые курсы были посвящены одному и тому же набору данных, что упростило получение знаний о данных, что, в свою очередь, помогло сосредоточиться на правильном выполнении моих запросов. После завершения этой серии я знал, что, по крайней мере, осознаю большинство вещей, которые меня могут попросить сделать на техническом собеседовании, даже если я не обязательно смогу сделать их правильно без первой попытки.

Обработка естественного языка

НЛП - одна из моих любимых тем в области науки о данных, и я разработал свой проект capstone для начинающих, чтобы сосредоточиться на методах НЛП. После окончания учебы я хотел продолжить наращивать свои знания.

Я сослался на Практическое машинное обучение с помощью Scikit-Learn и Tensorflow Орелиена Жерона, когда работал над своим завершающим проектом. После буткемпа я перечитал интересующие меня разделы. Я также купил две новые книги по НЛП: Глубокое обучение для обработки естественного языка Стефана Райджмейкера и Обработка естественного языка в действии Хобсона Лейна, Коула Ховарда, Ханнес Хапке. Я думал, что ни одна из них не была так хорошо написана, как книга Жерона, но всегда полезно получить разные точки зрения и увидеть разные объяснения одной и той же темы.

Жизнь после буткемпинга также была прекрасным временем, чтобы получить практический опыт работы с техниками НЛП, которые мы не использовали в классе. Моим любимым из них было тематическое моделирование, которое я недавно применил к музыкальным обзорам от Pitchfork. Во время буткемпа у меня определенно не было времени изучить множество тем, выходящих за рамки учебной программы, но теперь у меня есть!

Инструменты визуализации

На буткемпе мы рассказывали о Matplotlib и Seaborn, и я уже знаком с Bokeh, Plotly и ggplot2. Я заметил, что во многих объявлениях о вакансиях аналитиков данные дашборды являются основной обязанностью, поэтому я хотел улучшить свои навыки в этой области.

Я уже немного поработал с Tableau, поэтому после буткемпа я воспользовался возможностью, чтобы создать проект, ориентированный на Tableau. Используя набор данных, который я разработал для проекта, я построил информационную панель для передачи основных функций данных. Я использовал четыре разных типа графиков и включил раскрывающееся меню, чтобы пользователи могли сами манипулировать графиками. Я изменил цвета и шрифты в соответствии с тематикой проекта (игровые автоматы) и создал индивидуальные макеты, чтобы панель управления хорошо смотрелась на различных устройствах. (Вы можете просмотреть мою панель управления пинболом здесь или прочитать, как я этого добился в этом посте.) После завершения этого проекта я почувствовал себя намного увереннее в своей способности использовать Tableau, и у меня есть кое-что интересное, что я могу показать за свои усилия. .

Dash и Bokeh предлагают несколько хороших онлайн-уроков, и я их тоже немного изучил.

Специализированный анализ

Когда я только закончил буткемп, я просто хотел работу - практически любую работу! Хотя я прочитал книгу Эмили Робинсон и Жаклин Нолис Постройте карьеру в области науки о данных и узнал об основных категориях вакансий в области науки о данных, у меня все еще не было четкого представления о том, какие из них правильные. для меня. Чтение большого количества объявлений о вакансиях помогло мне составить более четкое представление о том, какие виды работы с данными меня больше всего интересовали. Я также узнал, какие виды анализа важны для этих ролей.

Чтобы немного лучше подготовиться к ролям в маркетинге и продукте, которые мне нравились больше всего, я делал небольшие проекты, чтобы практиковать типы анализа, распространенные в этих областях. В частности, я научился проводить RFM-анализ, сегментацию клиентов и моделирование оттока клиентов, работая в основном с наборами данных, которые я нашел на Kaggle. Это была не только отличная практика, но и дала мне больше поводов для обсуждения во время интервью! Тот факт, что я научился проводить эти анализы вне учебного лагеря, вероятно, тоже имеет значение.

Больше информатики и статистики

Я также занимаюсь некоторыми темами, которые немного расширят мой кругозор. В Массачусетском технологическом институте есть открытый мини-курс по основам информатики под названием Пропущенный семестр вашего образования в области компьютерных наук. Это краткое введение в практические темы, которые действительно важны для любого программиста, но которые не часто раскрываются явно или подробно в программах получения степени и учебных курсах. Я еще не закончил, но первые несколько уроков я нашел полезными, и к множеству вещей стоит вернуться позже.

Причинный вывод был еще одной темой, которую я хотел изучить, в основном для того, чтобы понять, как его можно применить в бизнес-контексте. Я нашел Краткий курс по причинно-следственной связи, онлайн-курс, предлагаемый Пенном на Coursera, и проработал первый модуль примерно за день. Этого небольшого количества работы было достаточно, чтобы позволить мне обсудить, как причинный вывод может помочь в решении бизнес-проблемы во время недавнего собеседования.

И это подводит меня к одному основному моменту, который я хочу здесь отметить. Проходя собеседования, я обнаруживаю, что мне действительно не нужно знать все о науке о данных, достаточно просто говорить в целом о том, как все работает и для чего они нужны. Конечно, мне нужно кое-чему научиться на работе - все это делают! Но я думаю, что мои занятия после буткемпинга помогают мне расти и показывают потенциальным работодателям, что я могу стать ценным сотрудником.

Переписка с jrkreiger.net.