Лучшие навыки в области науки о данных на 2020 год

Наука о данных становится все более конкурентной областью, и участники постоянно работают над повышением уровня навыков и опыта. Эта тенденция привела к появлению все более требовательных должностных инструкций для данной должности. Чтобы оставаться конкурентоспособным, имеет смысл подготовиться к новым способам работы в сочетании с множеством новых инструментов. В попытке бороться с менталитетом «единорога», когда многие фирмы пытаются нанять одного человека на роль специалиста по данным, инженера данных, разработчика программного обеспечения и т. Д., В этой статье рассматривается ряд важных навыков, связанных с наукой о данных, разработанных чтобы помочь вам произвести фурор в вашей карьере: вот основные навыки работы с данными на 2020 год.

[Статья по теме: Должности в области науки о данных, на которые следует обратить внимание в 2020 году]

GitHub

Git (система контроля версий, которая позволяет вам управлять историей исходного кода и отслеживать ее) и GitHub (облачный хостинг, позволяющий управлять репозиториями Git) - это инструменты для разработчиков, которые очень помогает при управлении разными версиями программного обеспечения. Они отслеживают все изменения, вносимые в базу кода, и, кроме того, упрощают совместную работу, когда несколько разработчиков одновременно вносят изменения в один и тот же проект.

Для роли специалиста по данным Git становится серьезным требованием к работе, и требуется время, чтобы привыкнуть к лучшим практикам использования Git. Когда вы работаете в одиночку, легко начать работу над Git, но когда вы присоединяетесь к команде или сотрудничаете с экспертами Git, вы можете столкнуться с большими трудностями, чем вы думаете.

Подготовка к производству

Исторически специалист по анализу данных - это сотрудник, который отвечает на вопросы бизнеса с помощью машинного обучения. Но сейчас проекты по обработке и анализу данных все чаще разрабатываются для производственных систем. В то же время для продвинутых типов моделей теперь требуется все больше и больше вычислительных ресурсов и ресурсов хранения, особенно при работе с глубоким обучением.

Что касается должностных инструкций специалиста по обработке данных, важно подумать о точности вашей модели, но не менее важно работать напрямую с членами команды разработчиков данных для размещения решений для обработки данных в производственной среде. Если вы еще не сотрудничали с инженерами по обработке данных, чтобы запустить свои модели в производство, сейчас отличное время для начала.

Облако

Посмотрим правде в глаза, облако станет королем науки о данных и машинного обучения в 2020 году и в последующий период. Перемещение вычислительных ресурсов и ресурсов хранения к поставщикам облачных услуг, таким как AWS, Microsoft Azure или Google Cloud, позволяет очень легко и быстро настроить среду машинного обучения, к которой можно получить удаленный доступ. Это требует от специалистов по обработке данных базовых знаний об облачной инфраструктуре.

Знание облачных технологий не является обязательным, но становится все более актуальным. Если у вас есть такой опыт, он определенно работает как ценный набор навыков. Вот некоторые сервисы, на которые стоит обратить внимание: Google Colaboratory, Google ML Kit, Kaggle, IBM Watson и NVIDIA Cloud.

Глубокое обучение

Глубокое обучение, класс машинного обучения, лучше всего подходящий для конкретных проблемных областей, таких как распознавание изображений и NLP, получил много внимания в 2019 году. Но для более рутинных приложений для обработки данных, использующих структурированные / табличные данные , рекомендуются стандартные алгоритмы машинного обучения, такие как XGBoost. В результате для большинства специалистов по данным было принято рассматривать распознавание изображений и НЛП как простую специализацию науки о данных, которую не всем нужно освоить.

Однако в 2020 году варианты использования классификации изображений и NLP становятся все более частыми даже в типичных корпоративных приложениях. Поэтому я могу порекомендовать всем специалистам по обработке данных получить хотя бы базовые знания о глубоком обучении. Даже если у вас нет прямого применения глубокого обучения в вашей текущей работе, экспериментирование с соответствующим набором данных позволит вам понять, какие шаги потребуются, если возникнет такая необходимость в будущем.

Математика и статистика

Знание различных методов машинного обучения - неотъемлемая часть работы специалиста по данным. Опыт машинного обучения - главное отличие от аналитика данных. Фундаментальное понимание математической основы машинного обучения имеет решающее значение, чтобы избежать простого предположения о значениях гиперпараметров при настройке алгоритмов. Знание математического анализа (например, дифференциальных уравнений в частных производных), линейной алгебры, статистики (включая байесовскую теорию) и теории вероятностей важно для понимания того, как работают алгоритмы машинного обучения.

Я всегда говорю своим ученикам, что они должны стремиться понять теоретические основы машинного обучения, изложенные в Библии машинного обучения, Элементах статистического обучения Хасти, Тибширани и Фридмана.

SQL

Один вопрос, который я обычно слышу во вступлении к занятиям по науке о данных, - это Должен ли специалист по данным знать SQL? Решительно - ДА! Часто ваши наборы данных для проекта по науке о данных поступают из корпоративной реляционной базы данных, поэтому SQL является вашим каналом для сбора данных. Вы должны хорошо разбираться в SQL, чтобы получить максимальную пользу при сборе данных. Кроме того, использование пакетов R, таких как sqldf, - отличный способ запрашивать данные во фрейме данных с помощью SQL.

AutoML

Я виноват в том, что игнорирую этот аспект науки о данных, но технология набирает обороты. Идея инструментов AutoML состоит в том, чтобы расширить возможности ресурса, аналитика данных, которого не хватает. За счет автоматизации многих рутинных задач, выполняемых специалистами по данным, обучения и оценки моделей машинного обучения, можно выполнить больше работы с меньшей командой. Хорошая концепция, но я все еще не уверен на 100%, и, вероятно, поэтому я не углубился в AutoML. Тем не менее, многие компании серьезно относятся к этой технологии, поэтому, чтобы расширить свой опыт работы со всеми доступными инструментами, было бы разумно присмотреться к ней поближе.

Экспериментирование

Я всегда говорю своим новичкам, изучающим науку о данных, искать новые наборы данных и экспериментировать, экспериментировать, экспериментировать! Специалисты по анализу данных никогда не могут получить достаточно практики, работая с ранее неизвестными источниками данных. К счастью, в мире есть данные. Просто нужно сопоставить свои увлечения (экологические, экономические, спортивные, криминальные и т. Д.) С доступными данными, чтобы вы могли выполнять этапы «процесса анализа данных», чтобы лучше отточить свои навыки. Опыт, полученный вами в ходе собственных экспериментов с данными о домашних животных, только поможет вам в будущем в профессиональном плане.

Визуализация данных

Визуализация данных - замечательная вещь, которую вы можете делать с данными. Визуализация данных - лучший способ продемонстрировать результаты алгоритма машинного обучения. Это основной ингредиент для рассказывания историй (см. Последний главный навык ниже). С помощью всего лишь нескольких нетехнических слов описания во время презентации для заинтересованных сторон проекта ключевые результаты будут понятны, если у вас есть хорошо продуманная визуализация.

Я всегда ищу новые методы визуализации данных (с использованием недавно обнаруженных пакетов, чтобы упростить процесс), когда читаю статьи, блоги и книги. Этот навык является ключом к успеху проектов в области науки о данных.

Рассказ данных

Всегда важно совершенствовать свои навыки рассказывания историй. Это, наверное, самое сложное для специалистов по данным, поскольку это «мягкий» навык, требующий большой креативности.

[Статья по теме: Лучшие программные навыки для специалистов по данным]

Этот навык связан с общением и навыками межличностного общения. Это путь к выделению себя среди сверстников в области науки о данных (потому что у немногих это получается хорошо). Взаимодействуйте с заинтересованными сторонами, и они поддержат вас, когда это понадобится организации. Кроме того, хорошее общение с высшим руководством будет держать вас в курсе предстоящих проектов. Поэтому, не показывая им код, вы должны объяснять высокотехнологичные результаты. Держитесь подальше от объяснений, связанных с хрустальным шаром, чтобы люди не подумали, что наука о данных - это «волшебство». Заранее подготовиться - лучший способ хорошо выступить.

Готовы изучить все эти навыки в одном месте? Посетите ODSC East 2020 13–17 апреля в Бостоне и узнайте все, от машинного и глубокого обучения до визуализации данных и их повествования. Зарегистрируйтесь здесь.