Я работаю специалистом по анализу данных уже больше года. Я получил степень магистра в области компьютерных наук, где я прошел такие курсы, как машинное обучение, интеллектуальный анализ данных и поиск информации. Кроме того, я работал над проектами, связанными с Data Science, во время стажировки на ранних стадиях стартапов и исследовательской работы, проводимой под руководством моих профессоров. Для меня это было отличным вступлением в область науки о данных. Мне очень понравилось работать над сбором данных, любопытным исследованием того, что содержится в моих данных, и я был поражен количеством проблем, которые Data Science может решить на ранней стадии стартапа или исследовательской работы в этом отношении. Влияние моих проектов по науке о данных побудило меня сделать это как карьеру на полную ставку. Я планирую преуспеть в этом карьерном росте и стремлюсь в ближайшем будущем возглавить команду Data Analytics в организации B2C.

В этой статье я представил визуализации данных на этом наборе данных от Kaggle.

Мое намерение состояло в том, чтобы дать представление о Data Science, если у вас возникнут какие-либо вопросы в этой области. Я также перечислил некоторые ресурсы, которые использовал для изучения новых методов. Надеюсь, эта статья поможет понять, какие технологии необходимы для достижения успеха в этой области.

Наука о данных:

Термин Data Scientist имеет разное значение в разных компаниях. Их роли и обязанности часто меняются. Например, название «Front End Engineer» предполагает работу, связанную с интерфейсными технологиями, такими как React, Node.js, JavaScript. Но такие должности, как Data Miner, Business Analyst, Data Analyst, Machine Learning Engineer и т. Д., Могут включать в себя работу, очень похожую на задачи, выполняемые Data Scientists.

База знаний по науке о данных

Статистика: A / B-тестирование, гипотеза, доверительный интервал, тесты ANOVA, систематическая ошибка выборки, переобучение.

Машинное обучение: классификация, кластеризация, прогнозное моделирование, прогнозирование, обнаружение аномалий, оценка производительности моделей машинного обучения.

Хранилище данных: ETL, ELT, Snowflake Schema, Star Schema.

База данных: подключения к базе данных, запросы, присоединения.

Визуализация данных: инструменты бизнес-аналитики, методы визуализации с открытым исходным кодом.

Производство: знание сценариев для автоматизации и развертывания.

Приятно иметь: опыт поиска информации, опыт НЛП, программирование.

  • Мягкие навыки: коммуникативные навыки, способность решать проблемы, критическое мышление,
    пытливое мышление, принятие решений.

Кто такие специалисты по данным?

Что изучают специалисты по данным?

20 лучших инструментов для науки о данных

Онлайн-курсы

Учебный курс по Python для науки о данных и машинного обучения на Udemy

Машинное обучение от А до Я с использованием Python и R на Udemy

Машинное обучение Эндрю Нг на Coursera

Data School, Data Camp на YouTube.

Курсы аналитиков данных на Udacity

Сертификация по основам науки о данных на Lynda

Обучение основам SQL на Lynda

  • Все перечисленные выше курсы являются отличным ресурсом для изучения основ статистики, записной книжки Jupyter, анализа данных и машинного обучения. Большинство из них доступны бесплатно по цене менее 15 долларов США или предлагают бесплатные пробные версии на один месяц.

Интернет-блоги, учебные пособия

Analytics Vidhya для различных тем Data Science

Центр науки о данных

KDnuggets | Наука о данных, бизнес-аналитика, большие данные и интеллектуальный анализ данных

Наборы данных Kaggle, Учебники, Код, Вопросы и Ответы, Соревнования

Список из 50 блогов

Средний, Stackoverflow, Quora

  • Большинство этих блогов поддерживается сообществом специалистов по данным.

Надеюсь это поможет!