План того, как выглядит путешествие

Поскольку рекрутеры перечисляют множество «предпочтительных навыков» в своих объявлениях о вакансиях, изучение науки о данных временами может стать довольно сложным. Разделение путешествия на пять глав может дать более четкое представление о том, что его ждет впереди.

Глава 1

Большой! Вы решили изучить искусство науки о данных и теперь хотите принять вызов. Но какой язык выбрать? R или Python? В своей предыдущей статье я объясняю, почему, но пока все, что вам нужно сделать, это просто выбрать одну и начать с нее. Перейдите на YouTube и найдите учебные пособия на выбранном вами языке. Первое, что вам нужно узнать, это установить язык и его IDE (интегрированную среду разработки).

Теперь не смотрите только обучающие видео. Вы также должны одновременно ДЕЛАТЬ то, что изучаете. Чаще всего люди застревают на этом этапе. Я потратил около полутора лет, пытаясь убедить себя постоянно следовать руководству. Не обязательно сначала понимать каждый фрагмент кода, который вы пишете. Однако это важно сделать.

Однако никогда не полагайтесь на одно видео или ресурс. Попробуйте разные и посмотрите, какой из них подходит вашему стилю обучения. Важно понимать одну и ту же концепцию с разных точек зрения. Одно видео может быть просто идеальным для одной конкретной концепции, такой как первичные типы данных или циклы и итерации, но может быть отстойным для других тем.

Не позволяйте этому отговаривать вас продолжать. Все, что вам нужно знать, это ключевое слово для вашей следующей темы, например «переменные» или «объектно-ориентированное программирование», и выполнить с ним еще один поиск на YouTube или в Google. В Интернете есть множество открытых и бесплатных ресурсов. Если вы не можете связаться с одним инструктором, вы можете перейти к следующему. В этом вся прелесть.

В настоящее время я составляю список тем и таких ключевых слов, которые вы можете использовать на каждом этапе для Python (извините, ребята, R, я не думаю, что у меня достаточно опыта, чтобы предоставить аналогичный список для R). Большинство университетов размещают свои учебные программы на своих веб-сайтах. Посмотрите их и посмотрите, какие концепции должны следовать после чего. Вам, как независимому ученику, нужно знать, как их искать. И единственный способ стать лучше - это просто делать это каждый раз, когда вы натыкаетесь на что-то, чего не понимаете (что будет очень и очень часто). В конце концов, вы найдете несколько веб-сайтов или каналов YouTube, которые действительно вам подходят.

Глава 2

Через несколько месяцев в какой-то момент вы изучите много Python или R вместе с некоторыми важными библиотеками или пакетами Data Science. Если вы еще не открыли для себя Kaggle, здесь вы еще некоторое время будете жить. В следующей главе вы начнете изучать чужие коды и то, как другие анализируют свои данные на Kaggle. А потом ударит. Вы поймете, как многого еще не знаете. Вы почувствуете, что так сильно отстали, а все остальные далеко впереди вас. Почему нельзя было начать годом раньше? Вы будете слишком подавлены, чтобы продолжать.

Вот когда вам нужно будет выяснить, почему вы хотели изучить это в первую очередь, почему вы делаете то, что делаете, и почему Это могло стоить всей суеты. Если нужно, сделайте перерыв. Используйте это время, чтобы спланировать наперед и быть морально готовым справиться с этой новой неизвестной территорией. Разбейте следующую часть вашего путешествия на более мелкие главы. Теперь, когда вы знаете то, чего не знаете, это будет проще.

Каждые две недели оглядывайтесь на то, сколько вы узнали, пока это подавляющее чувство не исчезнет, ​​или, по крайней мере, пока оно не станет лучше. Даже если вы потратили две недели на один проект, если вы действительно приложили усилия и упорно трудились, это на две недели ближе к тому, чего вы хотели.

Вам также следует изучить основы SQL и другого языка между Python и R, который вы не выбрали изначально. Сейчас это не должно быть слишком сложно, поскольку вы уже знаете один язык и хорошо понимаете, как работают языки программирования.

Глава 3

Глядя на чужие коды, может показаться, что вы обманываете. Можно посмотреть чужие коды на Kaggle. Сначала вы не поймете весь код, и это тоже нормально. Если вам действительно комфортно работать со всем кодом в записной книжке, вы на самом деле не узнаете ничего нового из этой записной книжки. Расширьте свою зону комфорта. Единственный способ учиться - продолжать исследовать эту неизведанную территорию. Подобно тому, как контролируемая модель учится на помеченных примерах, вы также будете учиться на примерах кода других.

Вы встретите новые пакеты или концепции. Попытайтесь понять их, используя документацию, или Stack Overflow, или YouTube. Если вам нужно освежить свои знания в области математики и статистики, на YouTube также есть фантастические видеоролики для них, или простой поиск в Google с правильными ключевыми словами часто приведет вас к чему-то полезному. Один канал, который заслуживает упоминания, - это 3Blue1Brown. Вам действительно следует усвоить основы линейной алгебры и дифференциального исчисления, а также некоторые базовые статистические данные. Понимание основ SQL (и одного языка, такого как PostgreSQL) и реляционных баз данных действительно поможет и расширит ваш кругозор.

Создайте свою собственную эталонную базу кода функций и методов, которые вы в конечном итоге часто используете. При выборе личных проектов важно учитывать то, как они соотносятся с вашим доменом. А это значит, что именно тогда вы начинаете формировать свое портфолио для потенциальных работодателей.

Вы можете столкнуться с методом или техникой решения проблемы, о которой, как вы знаете, вы никогда не сможете придумать самостоятельно. Но помните, что теперь, когда вы познакомились с этим методом, вы стали немного лучшим специалистом по анализу данных, чем были раньше. Это складывается.

Не обращайте внимания только на методы анализа данных. Делайте заметки о том, как выполняются исследование, предварительная обработка и проектирование данных, и почему визуализация данных так важна. Подумайте о способах сбора данных с устройств, например о веб-скрейпинге. Постарайтесь понять жизненный цикл данных. Опубликуйте их на Kaggle, LinkedIn или Medium.

Глава 4

Начните изучать базовые алгоритмы машинного обучения. Скоро вы разберетесь с его красивыми, элегантными и захватывающими приложениями. Часто вам не обязательно уметь записывать математику или формулы того, как работает конкретный алгоритм или модель. Но зная, как работает эта модель, и аргументов, лежащих в ее основе, на данный момент будет достаточно, если, конечно, вы не хотите специально заниматься исследованиями машинного обучения.

Вам нужно будет узнать о каждом из компонентов модели машинного обучения. Почему нам нужно беспокоиться о переобучении? Что такое гиперпараметры и как они влияют на модель? Что такое оптимизаторы и как их эффективно использовать? Почему так важна регуляризация? Почему одна конкретная модель лучше решает конкретную проблему, чем другая? Является ли сложная нейронная сеть более эффективной и действительно необходимой для использования, чем более простые модели, такие как регрессия, классификация или кластеризация?

Существует множество алгоритмов машинного обучения, но вам не «нужно изучать их все» (* вставьте тематическую песню Pokemon в фоновый режим *). Вам следует выяснить, какие методы машинного обучения более полезны для вашей области знаний. Опять же, YouTube может быть хорошей отправной точкой, как это было до сих пор. Но на этот раз вам определенно нужно будет больше полагаться на другие ресурсы, такие как документация по модулям или нишевые блоги, такие как Medium. К настоящему времени вы, вероятно, должны быть богом поиска в Интернете.

Глава 5

Вы хорошо владеете Python, R и SQL. У вас развита интуиция, позволяющая анализировать практически любые данные. И вы знаете, как применять модели машинного обучения. Пришло время поднять свои навыки на новый уровень. Последнее самое важное, что вам нужно будет изучить, - это искусство сборки конвейера данных, интеграции с облачными сервисами, такими как AWS, Azure, IBM Cloud, Hadoop, Spark, и многих других, и внедрения его в производство. Опять же, в Интернете есть множество ресурсов. Вам просто нужно их найти.

Однако именно здесь ваш опыт в предметной области будет определять большую часть того, что вы делаете. Вы освоили инструмент, которым является Data Science, но именно то, что вы хотите с ним делать, и то, как вы применяете его в своем собственном домене, - вот почему вас будут нанимать. Возможно, вы захотите изучить Обработку естественного языка, чтобы проанализировать большие данные генома или провести анализ настроений для чат-бота, чтобы автоматизировать обслуживание клиентов для компании. Возможно, вы захотите изучить все тонкости работы сверточных нейронных сетей для обнаружения объектов с помощью компьютерного зрения. Или вы можете просто проанализировать данные о маркетинге и поведении клиентов, чтобы помочь создать более информированные стратегии для роста бренда или прибыли.

Вы, наконец, можете самостоятельно решать большинство проблем в области науки о данных или вносить значительный вклад в совместные усилия. Но помните, это не конец обучения. Фактически, вам нужно будет постоянно обновлять себя последними достижениями, и это, вероятно, уже сейчас для вас довольно очевидно.

Это основано исключительно на моем собственном опыте и грубых обобщениях. Однако в большинстве случаев это не так линейно, и вы будете переключаться между разными главами, особенно между главами 3 и 4. Опыт определенно будет отличаться для вас тем или иным образом. Существуют и другие методы для достижения успеха на каждой из этих стадий, которые столь же эффективны, как и эти, если не больше. Кто-то из вас может сосредоточиться на визуализации данных, кто-то может специализироваться на машинном обучении. Но я полагаю, что между ними есть некоторая общность; все они подпадают под действие Data Science.

Все дело в том, как бороться с неизвестным. Если вы позволите каждой новой концепции, с которой столкнетесь, обескураживать вас, вы сразу же сдадитесь. Вместо этого думайте об этом как о возможности стать лучшим специалистом по данным. Помните три принципа:

  1. разделите более крупные концепции на удобоваримые части
  2. узнайте, как искать их в Интернете, чтобы найти ресурсы, которые вам нравятся, и, наконец,
  3. применяйте их в своих проектах.

Самая важная часть - поддерживать импульс и регулярно учиться или практиковаться. Но самое сложное - это сесть за компьютер, чтобы начать работать. Однако, как только вы успешно убедите себя начать день, с каждым разом становится все легче. В конце концов, если вы не получаете этих всплесков «гормонов хорошего самочувствия» при преобразовании небольших кусочков данных в осязаемые знания, действительно ли вы хотите этим заниматься в долгосрочной перспективе?

Важно помнить, что вам нужно любить как добраться до пункта назначения, путешествие, процесс, а не только сам пункт назначения. Поэкспериментируйте с каждой новой концепцией, которую вы изучаете. Настраивайте вещи здесь и там. Дайте волю своему любопытству.







P.S. Если вам нужны более короткие, по существу статьи о Data Science и о том, как биолог проходит свой путь через информационную революцию, подумайте о том, чтобы подписаться на мой блог.

Каждую минуту загружаются тысячи видео, поэтому важно отфильтровать их, чтобы вы использовали только качественные данные. Отобранные мной лично, я пришлю вам обучающие видео по темам, которые вам интересно изучать. Подпишите здесь".

Спасибо!