Добро пожаловать во вторую часть моей серии статей о навыках Data Scientist. В следующих строках я упомяну еще несколько навыков, которые должен иметь в своем кармане хороший Data Scientist.

Часть 1: https://medium.com/@gruber_m/top-skills-for-data-scientists-part-1-a97cb224d7b8

Визуализация данных

Под визуализацией данных я подразумеваю, например, визуальное представление результатов вашего исследовательского анализа данных. Нельзя давать цифры только своему руководству. Люди могут лучше представить себе вещи, когда их визуализируют. Как специалист по данным, вам нужно построить целую историю вокруг ваших данных, чтобы привести свою аудиторию (в большинстве случаев руководство) к результатам вашего анализа.

Некоторые примеры визуального представления ваших данных: гистограммы, круговые диаграммы (непопулярные), гистограммы, точечные и линейные графики, взаимосвязь и тепловые карты. В ближайшее время я опубликую пост о самой визуализации данных. Некоторые из самых популярных инструментов для визуализации данных: Tableau, PowerBI, Google Analytics, QlikView, Fusion Charts.

Машинное обучение и глубокое обучение

Поскольку большие данные набирают обороты, ученые, работающие с данными, также должны приобретать знания в области машинного обучения и глубокого обучения. Сейчас многие компании трансформируются, чтобы управлять данными. Машинное обучение — это подмножество экосистемы науки о данных, как и статистика, с целью внести свой вклад в данные моделирования и получить некоторую информацию. В науке о данных некоторые из используемых алгоритмов — это K-ближайшие соседи (KNN), случайные леса, регрессионные модели, наивный байесовский алгоритм. Некоторые полезные библиотеки для машинного обучения — PyTorch, Keras и TensorFlow. Вы хорошо оснащены, если вы мастер в этих библиотеках. Каковы области применения машинного обучения? — Обнаружение мошенничества, здравоохранение, распознавание лица и голоса, автоматическая фильтрация спама

Облачные вычисления

Исследователи данных часто используют службы облачных вычислений для управления и обработки данных. Наука о данных и облачные вычисления идут более или менее рука об руку. Обычно специалист по данным использует облачные вычисления для: сбора данных, интеллектуального анализа данных, такого как исследовательский анализ данных, проверки и тестирования прогностических моделей и рекомендательных систем, настройки переменных данных и оптимизации производительности модели. Некоторые популярные платформы, о которых вы, возможно, уже слышали: Amazon Web Services (AWS), Windows Azure, Google Cloud или IBM Cloud.

Упрощение сложного

Многие специалисты по данным склонны использовать для решения проблемы все возможные алгоритмы и инструменты. Проблема: он создает более сложные системы, чем требуется. Какой бы сложной не была задача. Один из способов — разбить его на более простые задачи. Найдите способы решения небольших проблем с помощью самых простых и надежных инструментов и методов.

На сегодня все, удачного кодирования! :)

vegxcodes