4 инструмента, которые я использовал, чтобы научиться науке о данных, не тратя ни доллара

Я только что ушел после 8 лет учебы и тяжелой работы без всякого плана. Вам может быть интересно, зачем кому-то это делать. Мой босс подавлял мой дух и знал, что мне нужно что-то изменить.

Мой парень предложил стать специалистом по данным. Я сказал: «Ты сумасшедший!» Я ничего не знал о программировании. Конечно, он переоценивал мои способности. Снова поражает синдром самозванца.

Примерно через две недели моя подруга Анна предложила то же самое, я подумал еще немного и начал придумывать эту идею. Почему нет? Я решил снова стать новичком и заново изобрести себя как дата-сайентист.

Я хотел учиться в своем собственном темпе, поэтому решил пройти онлайн-курсы. Я подумал, что со степенью доктора неврологии у меня, вероятно, было достаточно формального обучения, чтобы устроиться на работу в области науки о данных. Мне просто нужны были практические навыки.

Эта история расскажет о 4 различных курсах, которые я прошел, и о том, как они привели к работе в области науки о данных в медицинском стартапе в Силиконовой долине.

В то время большинство онлайн-курсов, с которыми я сталкивался, были бесплатными. Поэтому я поставил перед собой задачу получить необходимые навыки, не тратя денег. Что сказать, я довольно скупой 😜

Базовые навыки

Когда я уволился со своей должности в UCSF, у меня не было никакого опыта программирования. Я использовал статистику во всех своих исследованиях, но только в небольшом масштабе. Все наборы данных, которые я ранее проанализировал, были созданы мной в лаборатории. Поэтому количество наблюдений было очень небольшим. Мне нужно было научиться кодировать и анализировать данные в гораздо большем масштабе.

Приступаем к программированию

Когда я решил, что хочу стать специалистом по данным, первое, что я хотел узнать, - это писать компьютерный код. Поскольку я никогда раньше не программировал, это было совершенно неизвестно. Я подумал, что если бы я действительно ненавидел писать код, то наука о данных мне не подошла бы. Так что это казалось хорошим местом для начала.

Мне повезло, что мой партнер Бен работал во многих областях техники и смог указать мне правильное направление. Он предположил, что Python может подойти мне лучше всего. Python отлично подходит для анализа данных, универсален и хорошо справляется с большими наборами данных, поэтому я начал с этого.

Обучение программированию

1. Codecademy

Для начала обучения программированию я использовал Codecademy. Я начал с Введение в Python, но не уверен, что курс, который я закончил, все еще существует, как это было в 2014 году. Если бы я использовал Codecademy, чтобы начать изучать Python сейчас, я бы, вероятно, выбрал курс Анализировать данные с помощью Python.

Я нашел Codecademy отличной отправной точкой. Для меня главным преимуществом была возможность писать код прямо в браузере. Правильная установка программных сред на моем компьютере - все еще моя ахиллесова пята. Так что мне было приятно избежать этого при старте. Приятно было знать, что если мой код не работал, то это было из-за синтаксиса, а не из-за ошибки настройки среды.

Мне также понравилось, как с Codecademy можно было поработать несколько минут за раз. Если бы у меня было немного свободного времени, я бы зашел в систему и решил несколько задач, потому что все это меня ждало. Это постепенное продвижение означало, что я не слишком боялся застрять в нем.

На тот момент, когда я закончил курс, было предложено всего несколько курсов Codecademy, и этот был бесплатным. Я был так поражен качеством бесплатных онлайн-курсов.

Когда я изучил основы Python, мне нужно было начать повышать свой уровень статистики и научиться анализировать данные в более крупном масштабе.

Анализ данных обучения

2. Специализация Coursera в области науки о данных от Джона Хопкинса.

Во-вторых, я прошел Специализацию Coursera по науке о данных от Джона Хопкинса. В то время вы могли сделать версию сертификата кода чести бесплатно, и платить нужно было только в том случае, если вам нужен проверенный сертификат.

Мне верифицированный сертификат не казался важным. Вместо этого мне нужно было продемонстрировать навыки, полученные на курсе, во время технических собеседований. Поэтому я взял бесплатную версию по специализации.

Одним из недостатков для меня было то, что эта серия курсов преподается на R. R - отличный язык программирования для статистического анализа, пользующийся успехом в академических кругах. Однако я хотел изучить Python для науки о данных. Я думал, что Python будет более полезен в стартапах, где я хотел работать.

Я просмотрел несколько курсов по анализу данных на Python, но они, похоже, предполагали довольно много знаний, которых у меня еще не было. Я считаю, что большинство этих курсов были предназначены для инженеров-программистов, которые хотели перейти в науку о данных. Поэтому они предположили, что у вас есть серьезные навыки программирования и вы уже знаете, как настроить среду Python.

Главное, что мне понравилось в специализации Coursera Data Science Specialization, это то, что она началась с самого начала. На первом курсе были пошаговые инструкции по установке R and R studio. Это облегчило прохождение последующих курсов, зная, что не будет никаких технических проблем.

Еще один аспект специализации Johns Hopkins Data Science, который меня устроил, - это то, что он преподавался в отделе общественного здравоохранения. Благодаря моему опыту в области науки о здоровье мне было легко следовать приведенным ими примерам. У них были примеры использования воздействия качества воздуха на астму и другие наборы данных, связанные со здравоохранением. Поэтому я мог сосредоточиться на содержании курса, а не на выяснении сценариев, представленных для анализа данных.

Эта серия курсов действительно хорошо дала мне базовое понимание основных аспектов работы в области науки о данных. Он коснулся программирования на R, базовой очистки данных, анализа, регрессии и машинного обучения. Мне очень понравилось учиться программировать и использовать код для анализа данных, и это вдохновило меня продолжить обучение.

Информационные интервью

На этом этапе переобучения я начал спрашивать людей в моей сети, могут ли они познакомить меня с другими людьми, которые перешли из академических кругов в науку о данных в Сан-Франциско. Некоторые смогли связаться со мной, поэтому я назначил как можно больше информационных интервью.

Мой друг познакомил меня с аналитиком данных из Modcloth, который пошел по тому же пути, что и я. Раньше она была нейробиологом, и я нашел ее советы особенно полезными.

Ее основная рекомендация заключалась в изучении SQL.

Обучение работе с базами данных

3. DB5 SQL Stanford Online

SQL вообще не рассматривался в специализации Coursera по науке о данных от Джона Хопкинса. Она сказала, что большую часть своей повседневной работы она запрашивала базы данных. Ей нужно было найти идеи для отделов развития бизнеса и маркетинга. Лишь небольшая часть ее времени была потрачена на статистический анализ и машинное обучение.

Я последовал ее совету и начал самостоятельный онлайн-курс SQL-курс в Стэнфорде. Из всех курсов, которые я прошел, этот был моим любимым. Мне понравилось, потому что учитель был превосходным и использовал простые примеры для объяснения концепций. Она также объяснила каждую концепцию по-разному.

С тех пор я порекомендовал этот курс очень многим людям, потому что считаю, что хороший фундамент в SQL важен для любого специалиста по данным. Курсы по науке о данных, с которыми я столкнулся, не рассматривают, как получить данные из базы данных с помощью SQL. Я считаю, что это огромная оплошность. У большинства курсов есть CSV-файлы данных, подготовленные для использования студентами, но, по моему опыту, это редко бывает в отраслевых вакансиях в области науки о данных.

После того, как я закончил курс Stanford SQL, я начал подавать заявки на вакансии в области науки о данных. К тому моменту я уже жил в Австралии и начал проводить собеседования по Skype со стартапами в районе залива Сан-Франциско. Во время собеседования я хотел продолжить развитие своих навыков.

Утверждение концепций

4. edX Основы анализа данных

Затем я прошел курс Основы анализа данных с использованием R от edX. Было очень полезно пересмотреть многие концепции, которые я уже изучил на курсе Coursera.

Я твердо верю, что изучение концепций разных учителей может дать новые идеи. Было намного проще следить за статистикой и концепциями машинного обучения, изучая их во второй раз. Я чувствовал, что благодаря этому курсу я получил более глубокое понимание.

Пока я заканчивал курс, я успешно дал интервью Amino, стартапу в области здравоохранения в Сан-Франциско, и получил рабочую визу и переехал в США.

Получение работы в области науки о данных

Я думаю, что я добился успеха на последнем собеседовании, потому что у меня были сносные навыки программирования и хорошее понимание статистики, но, что более важно, у меня были знания в области здравоохранения, экспериментального дизайна и научных методов.

На мой взгляд, именно эти дополнительные аспекты поставили мое приложение на первое место и побудили этот стартап рискнуть для меня. Я был очень молодым, и мне требовалось гораздо больше обучения на рабочем месте. Я думаю, что всех курсов, которые я прошел, было достаточно, чтобы команда по найму приняла меня во внимание, и что мой опыт в сфере здравоохранения помог мне преодолеть черту.

Поэтому, если вы хотите изменить свой карьерный рост в области науки о данных, я бы порекомендовал поискать компанию, в которой ваши существующие знания в предметной области будут ценными.

То, что я хотел бы узнать

Основной пробел в моих знаниях, который я хотел бы заполнить перед тем, как приступить к моей новой работе в области науки о данных, заключался в использовании git из командной строки. Я никогда раньше не использовал терминал или командную строку и понятия не имел, как использовать git для фиксации кода в репозитории Github компании.

Некоторым инженерам потребовалось довольно много времени, чтобы научить меня набирать обороты. Мне хотелось бы хотя бы иметь представление о том, как его использовать, прежде чем я начну, чтобы не тратить зря их драгоценное время. Мои коллеги были потрясающими и, казалось, не возражали против обучения меня, но в первые несколько дней я чувствовал себя обузой.

В конце концов я догнал и нашел Выучить код, сложный из командной строки чрезвычайно полезным.

Если вы думаете о том, чтобы пойти по тому же пути в науке о данных, я бы посоветовал вам пойти по этому пути! Для меня это был абсолютно правильный выбор. Разные люди учатся по-разному, но если у вас есть самодисциплина, чтобы изучать и доводить до конца то, что вы начали, безусловно, возможно научить себя науке о данных с помощью онлайн-курсов. Если это ваша цель, я желаю вам удачи и буду рад ответить на любые вопросы, если смогу.

Помимо данных, еще одна моя страсть - это живопись. Вы можете найти мое искусство дикой природы на www.katemarielewis.com

Если вы хотите узнать больше о том, почему я сменил карьеру: