Мастер-данные Vis Skills First

Наука о данных - это просто.

Чего ждать?

Да, я сказал это, но позвольте мне объяснить.

Никогда не было так просто использовать некоторые из самых сложных алгоритмов анализа данных, разработанные людьми намного умнее, чем вы или я.

Возьмите очень популярную библиотеку Python scikit-learn. Вот код для обучения 2 различных моделей классификации с набором данных функций (X) и вектором классов (y):

from sklearn import svm
from sklearn.naive_bayes import GaussianNB
X = [[0, 0], [1, 1]]
y = [0, 1]
model = svm.SVC()#GaussianNB()
model.fit(X, y)

Обратите внимание, что каждую модель можно обучить путем изменения только двух строк кода, импорта модели и инициализации модели. И это относится почти ко всем моделям классификации, доступным в scikit-learn.

Должен ли я знать математику, лежащую в основе каждой из моделей? Неа. Все, что мне действительно нужно знать, это то, что каждая модель будет давать прогнозы на основе входных данных, и эти прогнозы будут более или менее вероятными, что даст мне некоторое представление о том, насколько я должен быть уверен в прогнозах модели.

Вот и все. Немного Python, немного вероятности, и альта, науки о данных.

Очевидно, я сильно упрощаю ситуацию, но я хочу сказать, что, обладая небольшими техническими знаниями, многие люди могут фактически называть себя специалистами по данным. Эти же люди могут затем соревноваться за доллары в проектах, доступных через такие сайты, как Upwork.

Так как же вы, «лучший» специалист по данным, можете повысить свои шансы на победу в этих желанных проектах? Поймите две вещи:

1. Большинство людей не разбираются в науке о данных.

2. Большинство людей понимают истории.

Вооруженные этими двумя принципами, наиболее успешными специалистами по данным будут те, кто может рассказывать истории с помощью данных. И эта идея не нова. Действительно, многие другие писали о ценности рассказывания историй в науке о данных. Этот автор обсуждает различные модели повествования и то, как специалисты по данным могут использовать их для построения презентаций, а этот автор еще больше углубляется в различные типы данных и истории, которые они могут помочь вам рассказать.

Но независимо от того, насколько хорошо вы рассказываете истории, вы не можете рассказывать истории на основе данных, не зная инструментов, необходимых для того, чтобы рассказывать эти истории. И во многих блогах, публикациях и вопросах Quora по этой теме навык номер один, который становится на первое место, - это визуализация данных.

Таким образом, победивший специалист по данным будет использовать инструменты науки о данных, чтобы раскрыть идеи, а затем применить гораздо более простые методы визуализации данных, чтобы привлечь внимание своих клиентов. Хотите стать лучшим специалистом по обработке данных? Научитесь осваивать данные в первую очередь.

Что такое визуализация данных?

Тупой вопрос, я знаю, но давайте внесем ясность. Точно так же, как мы все перескакиваем на страницы с картинками в романе ... вы знаете, биографические романы с фотографиями рассказа, которые обычно помещаются прямо в середине книги, прежде чем когда-либо читать настоящую книгу ... так и наши глаза прыгают на визуализации данных в исследовательских статьях, презентациях и новостях.

Визуализация данных - это специальная версия исследовательского анализа данных, которая работает как метафоры, они помогают нам объяснять сложные отношения в более простых терминах или, в данном случае, наглядно. Но в отличие от других инструментов исследовательского анализа данных, визуализация данных также является искусством. Мы вернемся к этому через секунду.

Чтобы лучше понять, что такое визуализация данных, также важно знать, чем это не является. Data vis - это не Tableau, Python или любой другой инструмент, используемый для создания визуализаций данных. Data vis - это более простой способ визуального представления данных. Это так просто.

Итак, как мне использовать эту простую концепцию, чтобы удивить моих клиентов?

Во-первых, знайте свои варианты

Большинство историй данных выигрывают от обычных простых визуализаций, таких как гистограммы, гистограммы и линейные графики. Чем больше информации вы попытаетесь передать в одном сингле, тем меньшее влияние он окажет на вашу аудиторию. Хорошее практическое правило состоит в том, что если вы пытаетесь передать более 7 +/- 2 бит информации в одной диаграмме, разделите ее на две.

Это простое правило взято из работы Джорджа Миллера о краткосрочной памяти. Соответственно, большинство людей могут одновременно обращать внимание только на примерно от 5 до 9 бит информации. Что немного информации на графике? Для меня метка для оси Y, метка для оси X и легенда уже представляют 3 бита информации, а мы еще даже не представили данные.

Для более сложных статистических методов, таких как кластерный анализ, требуются более сложные визуальные эффекты, поэтому знайте, что у вас есть, по мере того, как ваш анализ данных становится более сложным. Здесь и здесь - это несколько отличных ресурсов с различными визуальными опциями для специалистов по данным.

Помните, что график должен быть понятным, не требуя объяснений. Последний пункт может быть проблемой для более сложных графиков, но соблюдение правила 7 +/- 2 помогает сосредоточиться на самом важном.

Во-вторых, знайте свою аудиторию

Как уже упоминалось, data vis - это форма художественного выражения. Гистограмма может быть двухмерной, монотонной и простой или многомерной, красочной и более сложной.

И точно так же, как рассказывание хорошей истории словами требует, чтобы мы понимали нашу аудиторию, мы также должны выбирать правильное художественное выражение для наших визуальных данных.

В-третьих, измените его

Каждая аудитория ненавидит повторение. Повторять скучно. Помните, что вы пытаетесь рассказать убедительную историю, поэтому изменение визуальных элементов в нужных местах может оказать большое влияние на ваших клиентов. Мне очень нравится менять жанр vis для максимального воздействия, но только если это имеет смысл.

Что я имею в виду под жанром?

Если я использовал базовые гистограммы и точечные диаграммы для построения своей истории данных, я мог бы добавить географическую тепловую карту или сетевой график, чтобы помочь клиентам добавить контекст в рассказ, который я рассказываю.

В-четвертых, самое главное - овладеть несколькими инструментами

Само собой разумеется, что изучение нескольких различных инструментов, которые помогут вам создавать визуализации данных, - это то место, где вы должны проводить большую часть своего времени простоя. Не позволяйте ни одному инструменту сказать вам, что это все, что вам нужно, извините, Табло.

Различные инструменты эффективно работают для создания различных типов визуализаций данных. Найдите время, чтобы изучить несколько инструментов и построить истории данных с их помощью, чтобы, когда придет время, вы могли показать клиентам, как вы объединяете навыки науки о данных с визуализацией данных, чтобы рассказать убедительные истории данных, которые помогут им принимать более обоснованные решения.

Что касается меня, то я сосредотачиваюсь на том, что проще всего использовать. Вот мой набор инструментов для создания убедительных историй данных с визуализацией:

1. Простые гистограммы, линейные графики, гистограммы - Excel (смех, но это отличный инструмент для простых данных)

2. EDA, трехмерные графики, тепловые карты, пузырьковые диаграммы - Python (seaborn, matplotlib, plotly)

3. Геопространственная визуализация - QGIS

4. Сети - Gephi

Итак, начните составлять выигрышное портфолио с визуализацией данных и побеждайте в соревнованиях!

Хотите узнать больше о науке о данных, карьерном росте или неверных бизнес-решениях? "Присоединяйся ко мне".