Мне нравится любимая поговорка Карла Спецлера: «Рецепт без диагноза - это злоупотребление служебным положением». Я думаю, что многие проекты Data Science терпят неудачу, потому что машинное обучение применяется там, где оно не нужно. Неудача либо в «данных», либо в «науке», либо в том и другом. ML помогает, когда «завтра такое же, как вчера» и когда цена неудачи невысока. Когда эксперименты обходятся дорого (цена отказа высока), машинное обучение помогает очень мало - сколько бы данных вы ни накопили, их будет недостаточно из-за дисбаланса классов. На каждое место, где есть нефть, просто слишком много мест, где ее нет. Вы не можете просто «машинно обучить» своих потенциальных клиентов, и если вы это сделаете, ваши прогнозы не будут хорошо обобщаться на новые данные.

Следующая матрица 2x2 может быть слишком грубым упрощением, но она каким-то образом иллюстрирует мое понимание области применения науки о данных и анализа решений.

При этом границы между квадрантами не так уж четко очерчены: байесовские методы распространяются на области с высокой неопределенностью (большие измерения), а «встроенный анализ решений» (определение SmartOrg) может очень хорошо применяться к небольшим и повторяющимся выборам. Управление рисками, безусловно, больше, чем планирование на случай непредвиденных обстоятельств, и повседневные операции не обходятся без повседневного выбора.

Я думаю, что анализ данных обязательно должен способствовать анализу решений, где это возможно. Приоры могут и должны подтверждаться прошлым опытом или сопоставимыми данными.

Наука о данных может извлечь большую пользу из стратегического мышления, которое преобладает при обсуждении стратегических решений. Фрейминг очень помогает в принятии решения о том, что является важным, и при расстановке приоритетов в деятельности, направленной на то же постепенное улучшение. Получение ясности в отношении ценностей и компромиссов может помочь избежать того, что теперь известно как «предвзятость в машинном обучении». То, что это на самом деле, можно охарактеризовать как оптимизацию для одного ценностного показателя за счет других.