Статья о бесплатных инструментах и ​​план для начала изучения Data Science / Machine Learning без опыта программирования.

Отказ от ответственности

Эта статья отражает мои мысли и опыт работы в области науки о данных. Я не большой поклонник МООК или онлайн-курсов с завышенной ценой и их обещания стать успешным специалистом по анализу данных в течение нескольких месяцев или недель. Не поймите меня неправильно, эти курсы могут помочь вам получить базовое представление о том, что такое Data Science, и об используемых технологиях, но они никогда не смогут сделать вас мастером, и вы не сможете получить хорошую высокооплачиваемую работу исключительно на основе на этих курсах. Рекрутеров не интересуют пройденные вами курсы, их больше интересуют проекты.

На мой взгляд, если вы хотите овладеть искусством Data Science, вы должны уметь уделять огромное количество времени практике и опробованию различных вещей. Вам нужна сильная мотивация, чтобы начать, но вам нужна большая дисциплина, чтобы оставаться на пути обучения. У меня много друзей / коллег, которые отказались от идеи заниматься наукой о данных из-за отсутствия внезапных преимуществ и отсутствия терпения и дисциплины.

Цитата Джеймса Клира из Атомных привычек мне очень помогла.

Успех обычно сводится к тому, что боль дисциплины предпочтительнее легкости отвлечения внимания.

Что такое Data Science

Согласно Википедии,

Наука о данных - это «концепция объединения статистики, анализа данных, информатики и связанных с ними методов» для «понимания и анализа реальных явлений» с помощью данных.

Проще говоря, Наука о данных - это искусство извлекать пользу из данных. Итак, чтобы изучать Data Science, вы должны знать, как обрабатывать данные, и инструменты, которые понадобятся вам для анализа и получения информации из данных.

Дорожная карта

Вот что вам нужно охватить:

  1. Погуглить - Буквально, как погуглить!
  2. Математика - линейная алгебра, базовая статистика, векторы и матрицы
  3. Программирование
  4. Машинное обучение / Наука о данных
  5. Визуализация - Tableau или Power BI
  6. Проекты и будущее

Давайте начнем:

1. Поиск в Google 😂

Несколько дней назад я прочитал твит от рекрутера, в котором говорилось, что они проводят собеседование с кандидатом, который упомянул «поиск в Google» как один из навыков в своем резюме. Поиск лучших ответов в Интернете поможет вам изучать вещи быстрее и эффективнее, чем любой онлайн-курс. Есть много людей, у которых уже были те же сомнения, что и у вас в прошлом, и сообщество настолько обширно и открыто, что вы можете найти ответы практически на все бесплатно.

2. Математика 😨

Не бойтесь, нам просто нужно знать некоторые основы, чтобы начать работу.

  • Линейная алгебра и матрицы - смотрите этот плейлист на YouTube от 3Blue1Brown.

Вот и все, вы можете оставить все концепции более высокого уровня (исчисление, дифференциальные уравнения) на будущее (2–3 года).

3. Программирование - веселье начинается прямо сейчас! 🤩

В сообществе Data Science в основном используются два языка программирования - Python и R. У каждого из них есть свой огромный список плюсов и минусов. Основное отличие, которое помогло мне выбрать Python вместо R; «Python может быть хорошо интегрирован с веб-приложениями и мобильными приложениями для упрощения развертывания».

4. Машинное обучение - лучшая часть 🎉

  • Машинное обучение Стэнфордского университета, преподает Эндрю Нг. В курсе используется Octave для обучения концепциям программирования, но в наши дни никто не использует его. Чтобы получить от этого максимальную пользу, попробуйте реализовать те же упражнения на Python.
  • Следите за блогами о машинном обучении.

5. Визуализация - вишенка на торте 🍰

Большинство конечных пользователей и заинтересованных сторон не понимают различных показателей машинного обучения (F1-оценка, площадь под кривой, истинно положительные и истинно отрицательные значения, среднеквадратичная ошибка), но они правильно понимают графики или информационные панели. Итак, специалист по анализу данных должен уметь излагать свои идеи в форме информационных панелей. Для этого в основном используются три инструмента:

  • Визуализация Python - Matplotlib, Seaborn или Plotly (интерактивно)
  • Tableau - моя любимая и простая в освоении.
  • Power BI - более продвинутый инструмент бизнес-аналитики со слишком большой гибкостью и настройкой

Чтобы лучше всего изучить любой из этих инструментов, найдите несколько наборов данных и приступите к визуализации. Кроме того, есть очень подробная документация по каждому инструменту и обширному сообществу.

6. Проекты - пройти мимо туториалов 🐱‍🏍

Интервьюеры и компании хотят видеть вашу работу, энергию и знания, которые вы в нее вкладываете, их не интересуют курсы. Поэтому, зная основы программирования и машинного обучения, вы должны приступить к работе с простыми проектами, такими как прогнозирование цен на жилье, простая классификация и т. Д.

Бонус

Бесплатные учебные пособия практически по всему на Python (включая, помимо прочего, машинное обучение, самостоятельное вождение, разработку веб-приложений), посетите



Это только начало…

Надеюсь, эта статья помогла вам начать работу с Data Science.

Удачи!