Я работаю специалистом по анализу данных уже больше года. Я получил степень магистра в области компьютерных наук, где я прошел такие курсы, как машинное обучение, интеллектуальный анализ данных и поиск информации. Кроме того, я работал над проектами, связанными с Data Science, во время стажировки на ранних стадиях стартапов и исследовательской работы, проводимой под руководством моих профессоров. Для меня это было отличным вступлением в область науки о данных. Мне очень понравилось работать над сбором данных, любопытным исследованием того, что содержится в моих данных, и я был поражен количеством проблем, которые Data Science может решить на ранней стадии стартапа или исследовательской работы в этом отношении. Влияние моих проектов по науке о данных побудило меня сделать это как карьеру на полную ставку. Я планирую преуспеть в этом карьерном росте и стремлюсь в ближайшем будущем возглавить команду Data Analytics в организации B2C.
В этой статье я представил визуализации данных на этом наборе данных от Kaggle.
Мое намерение состояло в том, чтобы дать представление о Data Science, если у вас возникнут какие-либо вопросы в этой области. Я также перечислил некоторые ресурсы, которые использовал для изучения новых методов. Надеюсь, эта статья поможет понять, какие технологии необходимы для достижения успеха в этой области.
Наука о данных:
Термин Data Scientist имеет разное значение в разных компаниях. Их роли и обязанности часто меняются. Например, название «Front End Engineer» предполагает работу, связанную с интерфейсными технологиями, такими как React, Node.js, JavaScript. Но такие должности, как Data Miner, Business Analyst, Data Analyst, Machine Learning Engineer и т. Д., Могут включать в себя работу, очень похожую на задачи, выполняемые Data Scientists.
База знаний по науке о данных
• Статистика: A / B-тестирование, гипотеза, доверительный интервал, тесты ANOVA, систематическая ошибка выборки, переобучение.
• Машинное обучение: классификация, кластеризация, прогнозное моделирование, прогнозирование, обнаружение аномалий, оценка производительности моделей машинного обучения.
• Хранилище данных: ETL, ELT, Snowflake Schema, Star Schema.
• База данных: подключения к базе данных, запросы, присоединения.
• Визуализация данных: инструменты бизнес-аналитики, методы визуализации с открытым исходным кодом.
• Производство: знание сценариев для автоматизации и развертывания.
• Приятно иметь: опыт поиска информации, опыт НЛП, программирование.
- Мягкие навыки: коммуникативные навыки, способность решать проблемы, критическое мышление,
пытливое мышление, принятие решений.
Кто такие специалисты по данным?
Что изучают специалисты по данным?
20 лучших инструментов для науки о данных
Онлайн-курсы
• Учебный курс по Python для науки о данных и машинного обучения на Udemy
• Машинное обучение от А до Я с использованием Python и R на Udemy
• Машинное обучение Эндрю Нг на Coursera
• Data School, Data Camp на YouTube.
• Курсы аналитиков данных на Udacity
• Сертификация по основам науки о данных на Lynda
• Обучение основам SQL на Lynda
- Все перечисленные выше курсы являются отличным ресурсом для изучения основ статистики, записной книжки Jupyter, анализа данных и машинного обучения. Большинство из них доступны бесплатно по цене менее 15 долларов США или предлагают бесплатные пробные версии на один месяц.
Интернет-блоги, учебные пособия
• Analytics Vidhya для различных тем Data Science
• KDnuggets | Наука о данных, бизнес-аналитика, большие данные и интеллектуальный анализ данных
• Наборы данных Kaggle, Учебники, Код, Вопросы и Ответы, Соревнования
• Средний, Stackoverflow, Quora
- Большинство этих блогов поддерживается сообществом специалистов по данным.
Надеюсь это поможет!