Что статистики думают о науке о данных?

В настоящее время существует много неопределенности в отношении того, что представляет собой наука о данных и чем она отличается от более традиционных форм анализа. По этой причине разные статистики будут иметь разные точки зрения на эту тему. Что я могу сказать, так это то, что те, кто думает, что наука о данных — это просто ребрендинг статистики, в настоящее время не работают над реальными проектами по науке о данных. Проблемы науки о данных выходят далеко за рамки традиционной статистики и включают более основанные на данных подходы к прогнозированию и созданию программного обеспечения. Размытие термина наука о данных во многом вызвано ажиотажем. Подробнее см. Наука о данных: признание названия.

Все дело в продукте

Важно понимать, что рост науки о данных родился в результате конвергенции широко доступных данных и доступных инструментов машинного обучения с открытым исходным кодом. Это сочетание делает возможными адаптивные, самообучающиеся программные продукты. Это переход от программирования, основанного на правилах, к новой парадигме, в которой программное обеспечение адаптируется к своей среде, чтобы стать тем продуктом, которым оно должно быть. Наука о данных — это умение хорошо разбираться в машинном обучении, а также умение сопоставлять эту технологию с реальными корпоративными проблемами и работать с продуктовыми командами над созданием приложения, которое будет запущено в производство. Никогда в истории это не было проблемой традиционной статистики или академического машинного обучения.

2 разных культуры

Машинное обучение родилось в совершенно другом сообществе, чем статистика. Знаменитая статья Лео Бреймана, в которой сравниваются проблемы статистиков и практиков машинного обучения, отлично показывает, насколько разные эти области. В машинном обучении основной целью является прогнозирование, а все остальное должно следовать этому указателю на качественный анализ. В статистике качество — это не предсказание, а скорее приверженность заранее выбранному дизайну эксперимента и методам проверки. Короче говоря, специалисты по машинному обучению позволяют данным определять подход, в то время как статистики руководствуются структурой своего анализа. Первое — это то, что приводит к способности Data Scientist создавать приложения, которые предсказывают и решают сложные проблемы, поэтому машинное обучение рассматривается как основная область, на которую полагаются Data Scientist. Речь идет не столько о наивных предположениях о наилучшем подходе (традиционная статистика), сколько о том, чтобы данные говорили о наилучшем пути вперед (машинное обучение). Подробнее о статье Лео Бримана см. в этом ответе.

Сбалансированный подход

В науке о данных мы видим сдвиг в том, как статистика и машинное обучение применяются для создания отличных продуктов. Необработанные прогнозы на основе качественных данных часто являются лучшим указателем на решение реальных проблем, чем сложные предположения, которые традиционно использовались в статистике. Но слепо бежать вперед, абсолютно веря в грубую точность, не делая того, что необходимо для статистической проверки прогнозов, — это путь к катастрофе. Продукты машинного обучения — это не упражнения по интеллектуальному анализу данных, это производственное программное обеспечение, которое развертывается и используется многими людьми. Статистика — это то, что гарантирует, что мы правильно оцениваем рабочий процесс машинного обучения и работаем над созданием качественного сквозного потока данных, который эффективно преобразует необработанные данные в интеллектуальные выходные данные.

Это означает, что две культуры статистики и машинного обучения должны объединиться в науке о данных; статистика должна отвечать прогностическим целям машинного обучения на основе данных, в то время как машинное обучение должно соответствовать надежной статистической практике.

Для статистиков, желающих войти в область науки о данных, будьте готовы передать аспекты своего подхода к машине. Мало пользы от предварительного выбора дизайна того, как, по вашему мнению, следует обрабатывать данные. В этом мире предсказание является единственным верным указателем на правильную обработку данных. Для тех, кто имеет академический опыт машинного обучения, будьте готовы полагаться не только на необработанные прогнозы, чтобы создать продукт, которому люди доверяют в производстве. Вам нужно будет статистически показать, что данные репрезентативны, выбраны правильно, и понять предположения, которые алгоритмы делают в отношении данных.

Наука о данных — это новая область, потому что ни статистика, ни машинное обучение не должны были создавать виды реальных приложений, которые специалисты по данным сейчас делают для компаний. Обе культуры, доведенные до крайности, будут верить в наивные идеи, рожденные академическими кругами, а не в реальный мир, который в настоящее время требует смешанного подхода.

Первоначально этот пост был представлен как ответ на Quora.

Что статистики думают о науке о данных?

Все дело в продукте

2 разных культуры

Сбалансированный подход

Вопросы по теме