Наука о данных? Что это?

Краткое объяснение того, что означает модное слово «наука о данных» и что должно прийти вам на ум, когда вы его слышите.

Кроме того, я перечислю некоторые источники, из которых вы можете начать 2021 год, изучая это.

Если бы мы начали с анализа этимологии этого так называемого «самого сексуального слова 21 века», мы должны были бы понять, что такое «Данные» и что такое «Наука». Что ж, давайте начнем с «Науки», с которой, как мне кажется, люди более знакомы или, по крайней мере, привыкли к ней.

Если мы проведем быстрое исследование Википедии, мы обнаружим, что:

  • Слово «наука» происходит от латинского scientia, что означает «Знание».

Итак, до сих пор вы могли задаться вопросом: «Значит, мы можем сказать, что наука о данных на самом деле является знанием данных?» Ага! Мой дорогой читатель!

Наша цель как специалистов по данным состоит в том, чтобы организовать знания, чтобы иметь возможность объяснять вещи и делать прогнозы, в данном случае не обо всей Вселенной, а в большинстве случаев о Данных, с которыми мы имеем дело. В двух словах, наука - это все об открытиях и накоплении знаний.

ВЫ: Хорошо! Попался! А как же «Данные»? Что именно вы имеете в виду?

Я уверен, что вы не будете удовлетворены, если я скажу вам, что Данные — это любая информация, верно?

Хорошо! Позвольте мне показать вам электронную таблицу, которую мой отец использует в своем розничном магазине шин, или, лучше сказать, ее перевод.

Эта таблица Excel содержит такие данные, как имя клиента, адрес, телефон, информацию об автомобиле, оказанной услуге, общей сумме (в реалах) и так далее. Как вы понимаете, данные повсюду! В прямом смысле!

Пока вы просматриваете веб-страницы, у вас собираются данные. Вся эта реклама Google, которая всплывает, как только вы заходите в интернет-магазин, вторгается в ваш электронный почтовый ящик, крадет вашу возможность спокойно просматривать страницы без всей этой настойчивой рекламы, как вы думаете, откуда они берутся? От ваших действий в сети! По сути, каждый веб-сайт, который вы посещаете, собирает ваши данные, а скорее просит вас подписаться на его информационный бюллетень — в тот момент, когда вы указали свой адрес электронной почты — или когда вы принимаете их файлы cookie.

Вы когда-нибудь задумывались о том, как Netflix делает прогнозы о том, что вы хотели бы посмотреть, основываясь на том, что вы уже посмотрели? Это все о машинном обучении! Но не беспокойтесь об этом прямо сейчас.

Поскольку цель состоит в том, чтобы познакомить вас с идеей науки о данных, позвольте мне сделать шаг назад и дать вам визуальный обзор того, чем должна быть наука о данных. Если вы посмотрите на эту диаграмму Вина (та, что из ваших математических занятий по теории множеств, которая, я уверен, вам знакома), вы увидите, что наука о данных на самом деле является очень междисциплинарной областью. Таким образом, мы разобьем эту диаграмму на части.

Навыки взлома. Здесь вы должны знать такие навыки, как программирование на Python или R; Эксель; SQL; манипулировать большими наборами данных и немного алгоритмического мышления.

Знания в области математики и статистики. Это крайне важно для понимания того, что данные на самом деле пытаются вам «сказать». Как мы уже говорили, Data Science — это не только сами данные, но и наука. Таким образом, наша главная цель — накапливать знания и делать выводы из данных.

Такие предметы, как исследовательский анализ, линейная регрессия, вывод, проверка гипотез, интеллектуальный анализ данных, машинное обучение, связаны со статистическими знаниями.

Основной опыт. И последнее, но не менее важное: существенный опыт, безусловно, заставит вас почувствовать, что изучение DS является почти невыполнимой задачей. Но не будь дураком; даже если мы можем чувствовать себя потерянными, потому что это выглядит так сложно, мы тонем в бесконечном потоке информации, тонны онлайн-ресурсов подготовят вас к этому захватывающему путешествию. Согласно публикации The Harvard Business Review в 2012 году, доминирующей чертой среди ученых, занимающихся данными, является любопытство! Быть любопытным к миру. Только так вы сможете проникнуть глубже поверхности проблемы и мыслить более творчески. При этом давайте проверим некоторые источники, из которых вы можете начать изучать науку о данных в 2021 году.

Подкасты по науке о данных

Несомненно, подкасты — отличный вариант, если вы хотите сначала не торопиться и начать лучше знакомиться с такой обширной областью, или если вы хотите оставаться в курсе и быть в курсе последних тенденций в этой теме.

Настоящий Python — который, кстати, является отличной страницей для изучения науки о данных — составил фантастический список с отличными вариантами. Вы можете проверить это по ссылке ниже.



Кроме того, если вы из Бразилии или, возможно, говорите по-португальски, есть отличные подкасты, например:

  • Хипстеры Ponto Tech
  • Взломщики данных
  • Пицца де Дадос
  • Кабеса де Лаб

Страницы и курсы

Тем не менее, возможно, вы хотите начать 2021 от ударов через «̵s̵t̵a̵r̵t̵ ̵s̵t̵a̵r̵t̵ ̵t̵o̵ ̵l̵e̵a̵r̵n̵ ̵s̵t̵a̵t̵a̵s̵t̵̵t̵a̵t̵i̵s̵t̵ ̵d̵a̵t̵ ̵a̵n̵d̵̵s̵s̵ ̵a̵n̵d̵ ̵d̵a̵t̵a̵ ̵s̵̵̵̵̵̵n̵c̵a̵ ̵̵̵̵̵̵̵̵n̵c̵a̵ ̵i̵n̵ ̵2̵0̵2̵1̵» ̵ и поднимите ставки немного. Следовательно, вот хороший контент, на который вам обязательно стоит взглянуть.

  • Академия Хана. Это определенно одна из лучших платформ, где вы можете изучать практически любой школьный предмет, начиная от самых основ и заканчивая курсами AP. Там вы найдете контент по математике и статистике, чтобы преуспеть в DS. Все курсы также доступны на португальском языке.


  • Курсера | EdX | Udemy: Эти платформы просто невероятны, когда речь идет об обучении практически любому навыку.




  • Курс вероятностей: это больше, чем веб-сайт, на самом деле это целая книга! Доступно бесплатно! Я использовал его во время моего первого курса по теории вероятностей, и я очень рекомендую его.


  • Sigmoidal: если вы говорите по-португальски, эта платформа просто необходима! В настоящее время я зачислен на курс Python для начинающих — «Python do Zero» — и он уникален! У них очень сильный подход, основанный на проектах, портфолио и личном брендинге.


Ютуб-каналы

  • Роджер Пэн: он является одним из ведущих подкаста «Не такие стандартные отклонения». Каждый контент стоит того.


  • Сирадж Раваль: я нашел его на GitHub и узнал, что у него есть отличный канал на Youtube с большим количеством контента.


  • Joma Tech: канал Джомаса полон контента. Там вы найдете множество материалов, связанных с программированием, технологиями, наукой о данных и многим другим.


  • Кен Джи. Если вы ищете карьеру в области науки о данных, вы тоже не можете пропустить его.


  • Карлос Мело:Серьезно, на мой взгляд, лучший канал Youtube в этой области в Бразилии. Карлос является основателем Sigmoidal и больше, чем просто специалист по данным, он удивительный режиссер-самоучка.


  • Alura Cursos Online: потребляйте любой их контент, и все будет хорошо. Поверьте мне.


Книги для начинающих

  • Наука о данных с нуля. Как следует из названия, если вы никогда раньше не слышали о DS, это хорошее место для начала. Будьте осторожны, обратите внимание, если вы берете 2-е издание (которое пока доступно только на английском языке).

  • Наука о данных для бизнеса (Data Science para Negócios). Как вы заметите, потратив некоторое время на эту тему, ожидается, что специалист по данным должен знать что-то или больше о бизнесе.

  • Head First Python: руководство для мозга (используйте Cabeça! Python)

  • Вероятность и статистика для техники и наук (Probabilidade e Estatística para Engenharia e Ciências):

Как мы видели, Data Scientist должен иметь хороший статистический опыт. Эта книга доступна на английском и португальском языках. Я использовал его с некоторыми другими, и он довольно хорош, но вы можете выбрать любой другой, который вам нравится.

Учитывая все обстоятельства, если вы потребляете половину этого контента или даже весь, вы будете более чем готовы пройти этот долгий путь самостоятельно.

Я надеюсь, что вам понравилось! Удачи на вашем пути!

Заботиться!