С момента моей первой работы, связанной с данными, одиннадцать 11 лет назад, работая в одной из крупнейших статистических компаний в мире, государственном Бразильском институте географии и статистики (БИГС), я стал свидетелем значительный прогресс в секторе. В то время, честно говоря, я понятия не имел, насколько важными стали бы инструменты, связанные с данными. Должность аналитика данных дала начало множеству других «должностей», от архитектора данных до инженеров и аналитиков данных. Таким образом, в следующих строках я перечислил то, что, по моему мнению, является первым, чему следует научиться как соискатель данных:

  • Прежде всего: обязательно переходите на МООК. Объем знаний, которые вы можете получить на этих курсах, впечатляет. Edx, Coursera, Udacity, Udemy, LinkedIn Learning, DataCamp. Затем следует применить на практике реальные открытые данные, точнее, в реальных случаях (желательно, опубликовав исследования на Data.world, Medium, Kaggle, LinkedIn и т. Д.).
  • Примеры из практики: это второй в списке, потому что я не сомневаюсь, что это один из самых важных навыков. Нет смысла знать множество «клише», не зная реальных примеров. Включая развертывание машинного обучения. Также стоит напомнить: жизнь специалиста по данным не основана на простом и организованном файле csv, как в Kaggle, готовом для вас применять модели машинного обучения, поскольку это наименее сложная часть.
  • Знакомство с различными типами данных и проблемами с данными, такими как повторяющиеся строки, отсутствующие значения, разбиение дат, строки, которые нужно преобразовать в числовые значения или данные с плавающей запятой и т. Д.
  • Как определить важные метрики: R², RMSE, отзыв, f1-score и многие другие

  • Наиболее часто используемые языки программирования, такие как Python, R, Julia, Go и библиотеки, такие как Scikit-Learn, TensorFlow / Keras, PyTorch, GGplot, Matplotlib, Seaborn, Pandas.
  • Обзор того, как работают алгоритмы: слабые ученики, склонность к переобучению, недообучению, хорошее понимание компромисса смещения и дисперсии.
  • В некоторых компаниях (особенно стартапах с малым бюджетом) по-прежнему требуется знать, когда использовать Random Forest, XGboost, Neural Nets, SVC и преимущества одного по сравнению с другим в общем виде (что в большинстве случаев неточно). времени). Однако это больше не проблема с появлением инструментов расширенного машинного обучения, о чем я упоминаю ниже.
  • В настоящее время, в 2018 году, если вы знаете некоторые инструменты автоматизированного / расширенного машинного обучения, такие как от Amazon, Google и Microsoft, а также небольшие (но важные), такие как AutoSklearn, H20, BigML, Weka, DataRobot, MLJar и Predicsis, вы на шаг впереди большинства исследователей данных на рынке, использующих только Python, R и Matlab.
  • Многие статистические анализы неточны. Возможность идентифицировать эти неточности и «фальшивые» исследования имеет первостепенное значение.
  • понимание основных статистических идей, таких как p-значение, доверительный интервал, теория вероятностей, временные ряды.
  • Знания об инструментах предварительной обработки данных, таких как Power BI, Alterys, Pentaho Data Integration, включая, очевидно, навыки SQL и NoSQL.
  • Навыки определения содержания проекта и понимание жизненного цикла проектов в области науки о данных в целом, поскольку он сильно варьируется в зависимости от типа набора данных, компании, бюджета, персонала и т. Д.
  • Важный, если не самый важный навык: способность сообщать результаты неспециалистам, чтобы понимать запросы лиц, принимающих решения. Деловая хватка становится все более и более важной с появлением множества инструментов для анализа данных, как упоминалось выше. Вот почему наличие докторской степени в области STEM и попытка занять позицию, связанную с данными, на которой строго необходима деловая хватка, очень вероятно, являются рецептом неудачи: независимо от того, насколько вы хороши технически, вы должны быть в состоянии правильно донести свои идеи

И последнее, но не менее важное: занимайтесь каждый день. Глубокое обучение с подкреплением, глубокое состязательное обучение, Интернет вещей и многие из самых актуальных тем в области науки о данных появляются каждый день. Если бы я собирался резюмировать приведенный выше список, то главным навыком для соискателя науки о данных, несомненно, было бы: никогда не прекращать учиться! Умение изучать новые инструменты очень важно в этой абсурдно быстро развивающейся теме.