Как я прошел стажировку через четыре месяца самостоятельного изучения науки о данных

Всего несколько недель назад у меня было собеседование для прохождения стажировки в области науки о данных в одной из крупнейших телекоммуникационных компаний в Азии.

Начну на следующей неделе.

Как я попал на собеседование?

Подсказка: это произошло не из-за моего образования (я еще даже не получил степень CS). И не из-за сертификатов по науке о данных, которые я когда-то так старательно пытался собрать.

Меня вызвали на собеседование из-за моего портфолио в области науки о данных и проектов, которые я там продемонстрировал.

Подача заявки на вакансию в области науки о данных может быть довольно сложной просто потому, что почти невозможно идеально подходить для компании, в которую вы подаете заявку.

Мой совет - вместо того, чтобы пытаться изучить все существующие инструменты, используйте то, что вы знаете, для создания чего-то полезного. Именно здесь вы узнаете больше всего. Затем продемонстрируйте свой проект остальному миру. Расскажите об этом историю.

Создание проектов, которыми вы увлечены, - это не просто демонстрация вашего мастерства. Это показывает вашу любовь к тому, чем вы занимаетесь.

Вам придется потратить недели (иногда даже месяцы), пытаясь воплотить идею в жизнь. Вы будете часами смотреть на свой ноутбук, пытаясь исправить код, который выдает ошибку каждый раз, когда вы пытаетесь его запустить.

Иногда вы понимаете, что невозможно завершить проект, потратив на него месяц.

Невозможно повысить точность вашей модели на реальных пользовательских данных, потому что ваш набор данных ошибочен.

Это месяц тяжелой работы на ветер, и вам придется начинать заново.

Только человек, искренне увлеченный своим делом, может выдержать это.

Это вселит в работодателя уверенность в том, что вы справитесь со своей работой. Даже если вы не полностью соответствуете описанию должности, вы тот, кто способен решить поставленную задачу.

В этой статье я познакомлю вас с некоторыми проектами в области науки о данных, которые вам следует выполнить. Эти проекты не только улучшат ваши навыки специалиста по данным, но и будут отлично смотреться в вашем резюме.

Я предполагаю, что вы прошли курс или два по науке о данных и освоили некоторые навыки программирования и анализа данных. (Если вы этого не сделаете, вы можете нажать здесь, чтобы найти список бесплатных курсов, которые помогут вам получить необходимый опыт).

Kaggle

Проекты Kaggle отлично подходят для начала, потому что вам передаются чистые и структурированные данные.

Анализировать хорошо структурированные данные и запускать на их основе модели машинного обучения довольно просто.

Если вы новичок, Kaggle - лучшее место, где можно запачкать руки!

Лучшее в работе над проектами Kaggle - это количество инструкций, доступных в Интернете.

Все делают их и соревнуются, чтобы добиться максимальной точности. Люди публикуют сообщения в блогах, репозитории GitHub и видеоролики на YouTube, демонстрируя свой подход к решению проблемы.

Kaggle также предоставляет учебные пособия по некоторым из своих проектов, удобных для начинающих, и они будут очень полезны в начале.

Вот список некоторых проектов Kaggle, которые вам следует выполнить, если вы новичок в этой области.

Проекты Kaggle отлично подходят для начала, когда вы новичок. Меньше времени тратится на сбор и очистку данных, и больше времени можно потратить на развитие навыков машинного обучения.

Однако, если ваша цель - создать впечатляющее портфолио в области науки о данных, держитесь подальше от Kaggle.

Почему?

Данные реального мира беспорядочные.

Работая в компании, вы не получите чистый и структурированный набор данных, как в Kaggle.

Фактически, около 80% работы специалиста по данным тратится на очистку данных, и только около 20% тратится на модель.

Демонстрируя свои проекты Kaggle, вы продемонстрировали лишь небольшую часть навыков, необходимых для выполнения работы - создания высокоточных моделей (иногда).

Так что же делать вместо этого?

Продемонстрируйте разнообразные навыки

Да, теперь потенциальный работодатель знает, что вы можете создавать отличные модели контролируемого обучения, которые делают очень точные прогнозы.

И что еще?

Обязательно создавайте проекты разных типов, демонстрирующие самые разные навыки - очистку данных, анализ, визуализацию, машинное обучение и общение.

Если у вас есть предметные знания в другой области, у вас будет гораздо больше шансов выделиться, если вы интегрируете эти знания в свои проекты в области науки о данных.

Продемонстрируйте свою страсть

Тебе нужно любить то, что ты делаешь. И, возможно, вы не обязательно любите программирование, математику или машинное обучение, но это нормально.

Что вам нужно сделать, так это найти способ использовать данные в той области, которая вам нравится.

Может быть, вы любите музыку (я имею в виду, кого не любит?)

Вы можете попробовать создать проект по анализу музыки, анализируя тенденции и предсказывая следующий большой успех в индустрии!

Фактически, на Towards Data Science есть целая страница, посвященная музыкальной аналитике.

Если вы создаете проекты по науке о данных, связанные с тем, чем вы увлечены, у вас гораздо больше шансов продолжить работу, даже когда это станет трудным. Это будет намного проще выполнить, чем проект, который вам неинтересен.

Примеры

Мне всегда было интересно освещать социальные проблемы, такие как изменение климата, гендерное неравенство и расовое неравенство.

Есть ли лучший способ разобраться в этих проблемах, чем данные?

Это привело к созданию проектов анализа данных, таких как:

Еще я люблю читать. Когда я был моложе, мне больше всего нравился сериал о Гарри Поттере, поэтому я создал модель предсказания личности Гарри Поттера.

Это всего лишь несколько примеров того, как вы можете объединить данные и вашу страсть для создания портфолио по науке о данных.

Общаться

Самое главное, не забудьте сообщить о своих проектах.

Недостаточно создать замечательный продукт, если код будет находиться в вашем репозитории GitHub практически без объяснения причин.

После создания проекта по науке о данных расскажите о нем историю.

Почему вы решили начать этот проект? Какие шаги были предприняты для его завершения? Каковы были ваши данные?

Излагайте свой проект простым языком, чтобы его мог легко понять любой, кто попытается его прочитать.

Вы можете создать сайт GitHub Pages, чтобы рассказать о своем проекте, написать в Medium публикации или даже завести собственный блог.

Портфолио Data Science

Наконец, вам понадобится место, где вы сможете собрать всю свою работу. Я предлагаю создать веб-сайт-портфолио по науке о данных, чтобы продемонстрировать все это.

Когда я подал заявку на стажировку, все, что я отправил, было ссылкой на сайт моего портфолио. Я включил ссылки на свои учетные записи GitHub и Medium и написал краткое описание всех проектов, которые я сделал.

Вы можете нажать здесь, чтобы узнать, как создать простой веб-сайт-портфолио по науке о данных. На создание своей у меня ушло всего день.

Просто начни!

Если вы прошли несколько онлайн-курсов и не знаете, что делать дальше, я предлагаю вам начать работу над проектом в области науки о данных.

Проведите небольшое исследование, выберите набор данных и начните. Назовите себе крайний срок и постарайтесь завершить его к тому времени.

Удачи!