Первый шаг к науке о данных и пять вещей, которые следует помнить

Наука о данных и машинное обучение, вероятно, являются самыми заманчивыми карьерными путями на данный момент и в ближайшее десятилетие или около того, поэтому многие из нас стремятся к тому же. Наука о данных и машинное обучение проявили себя во всех сферах жизни, от образования, здравоохранения, банковского дела, электроники, автомобилей и т. Д., И этот список можно продолжить. В какой-то момент мы все решаем осуществить мечту стать специалистом по анализу данных или инженером по машинному обучению и всем сердцем окунуться в мир онлайн-обучения (онлайн-сертификаты, MOOCS, онлайн-программы получения степени, учебные пособия на Youtube и т. Д.) .

Мы проводим первые несколько дней, пытаясь понять кусочки этого огромного мира статистических инструментов, алгоритмов кодирования и нескончаемых потоков данных, то есть когда мы сталкиваемся с суровой реальностью, которая не так проста, как кажется, и требует много времени и усилий. Большинство людей сдаются в первые 3 дня, и лишь немногие продолжают на 3-й или 4-й неделе. Я бы поделился некоторыми типичными ошибками, которые, как я видел, совершают люди, чтобы вы могли к ним подготовиться.

  1. Оно того стоит!

Всякий раз, когда вы чувствуете, что это сложно, и больше не можете это делать, напоминайте себе, что это стоит усилий, и думайте о конечном результате, о том дне, когда у вас будет опыт и карьерный рост, который он вам даст. Представление о конечном результате в уме действительно важно для мотивации, потому что «Бегущий человек может легко добежать до точки, которую он видит, только трудно добраться до ближайшей точки, которую он не видит».

2. Изучите основы и поиграйте с ними

Большинство из нас начинают учиться с середины (люди начинают изучать Keras, TensorFlow, Pytorch, фактически не понимая линейной регрессии), потому что мы думаем, что это отправная точка. Пожалуйста, поймите, что если вы начнете с середины, вам будет сложно продвигаться вперед, и ваш уровень интереса начнет иссякать, чего никогда не должно происходить. Кроме того, мы изучаем новую концепцию и пытаемся написать точно такой же код той же проблемы, для которой мы уже видели решение, всегда пытаемся реализовать то, что вы узнали о новой проблеме, это помогает закрепить концепции глубоко в вашем сознании.

3. Обучение на Youtube - не эффективное обучение

Как бы безумно это ни звучало, но Youtube Learning - это не настоящее обучение, мы смотрим видео, и в течение 10 минут мы чувствуем, что усвоили концепцию, мы не понимаем, что то, что мы думаем, что мы узнали, - это просто визуальное впечатление от того, что у нас есть видели 10 минут назад, очень важно, чтобы мы сами прочитали документацию по концепции, которая освежит то, что мы только что видели в видео, а также даст нам новый взгляд на концепцию, потому что до сих пор мы понимали только то, что человек в видео научило нас.

Кроме того, при устранении неполадок в нашем коде мы пытаемся найти решение на Youtube, потому что мы помним, что видели его в видеоуроке, я бы порекомендовал вам вместо этого выполнить поиск в Google, который мгновенно даст вам решение, с другой стороны, вам придется посмотреть целое видео, чтобы найти решение. И одно видео приведет к другому видео и другому.

4. Нет ничего лучше Kaggle для изучения науки о данных

Нет лучшего места для изучения науки о данных, чем Kaggle, независимо от вашего текущего положения (новичок или эксперт) в kaggle есть что-то для всех. Новички могут начать с микрокурсов, которые дают им достаточно, чтобы начать в мире науки о данных и для экспертов есть тысячи соревнований, чтобы доказать свой характер. Кроме того, мы также можем найти полезный контент на Medium, AnalyaticsVidya.Com, Techgig и т. Д.

5. Если я знаю Sklearn или TensorFlow, я специалист по данным?

Многие из нас считают, что если мы изучим синтаксис применения алгоритмов из известных пакетов машинного обучения, мы овладеем этой областью, но, к сожалению, это не так. Большинство людей, разбирающихся в этой области, могут создать модель, которая может дать точность около 60–70%, просто реализовав алгоритмы из sklearn или keras, но отрасль требует профессионалов, которые могут оптимизировать ее до 80%. –90% точности, чтобы достичь этого, вам необходимо действительно понять основной алгоритм и настроить гиперпараметры.

В конце я хотел бы еще раз напомнить вам, что бы ни говорили люди и как бы сложно это ни казалось,

Оно того стоит!