Фундаментальные вопросы науки о данных заключаются в следующем: как получить практическую информацию из необработанных, беспорядочных данных? И поскольку данные являются сердцем многих организаций, это также: как мы проектируем инфраструктуру данных и стандарты науки о данных? И как мы анализируем их и проверяем?

Эта статья призвана повысить осведомленность о проблемах забвения данных. наука - это, по сути, научная дисциплина, и мы не забываем использовать существующие области тремя основными способами:

  • Мы можем представить науку о данных как междисциплинарную научную дисциплину, а затем использовать методологию разработки прикладных научных экспериментов.
  • Вдохновленные статистикой и информатикой, мы можем использовать проверенные методы.
  • Статистические и программные инструменты помогли статистикам и компьютерным специалистам анализировать, разрабатывать и проверять статистические тесты. Мы можем полагаться на аналогичные инструменты в области науки о данных.

Проблемы с «Самой сексуальной работой 21 века»

Быстрый приток энтузиастов науки о данных в отрасль привел к появлению бесчисленных учебных курсов для начинающих по науке о данных, программ обучения и MOOC, которые, как правило, сосредоточены на применении инструментов, которые кажутся актуальными, например Python и машинное обучение. , без обучения основам существующих областей.

Совпадая с (1) шумихой вокруг искусственного интеллекта и (2) компаниями, не совсем понимающими значение науки о данных, теперь у вас есть запасы «ученых-данных», соревнующихся за создание наиболее точных моделей искусственного интеллекта. Такие сайты, как Kaggle, усиливают это поведение и стремление к лучшему результату, игнорируя научный подход, игнорируя также важность других KPI, таких как размер модели, размер обучения / тестирования и объяснимость.

Это явление было названо « каглефикацией » и считается одной из основных проблем ИИ.

Что действительно важно в науке о данных

Я собираюсь привести картинку, которую вы, возможно, помните из своего 3-го класса по естествознанию - не сердитесь, но похоже, что многие специалисты по данным забыли об этом.

Прежде чем строить другую модель, которая пытается предсказать цену биткойна на параметрической основе (подсказка: не надо), задайте вопрос как. Наука исследует причинные цепи (A - ›B -› C) - как A ведет к B и так далее. Прежде чем выбрать какую-либо модель ИИ для прогнозирования Y (скажем, это цена актива), задайте такие вопросы, как: «H как X влияет на цену Y?» и выдвинуть опровержимую гипотезу.

Наука о данных, которая сосредоточена только на создании наиболее точной модели ИИ, занимается не принципами и фундаментальными знаниями, а только тем, что работает, даже если результат не имеет смысла.

Бессмысленный результат выглядит так: некоторая высокоточная модель, обучение которой занимает дни или даже недели, весит несколько гигабайт, имеет миллиарды параметров и требует от специалиста по данным целыми днями настраивать гиперпараметры.

Эту статью написал Фредерик Бусслер, генеральный директор bitgrit. Присоединяйтесь к нашему сообществу специалистов по данным или нашему Telegram, чтобы получить информацию и узнать о возможностях в области науки о данных.