Исследовательский образ мышления специалистов по анализу данных: мышление, основанное на «первом принципе»

Нужна ли мне докторская степень? степень научного специалиста по данным ? Это частый вопрос, который задают многие, кто хочет присоединиться к этой области. Многие блоги подробно описывают причины, по которым вам не нужна докторская степень. степень, чтобы стать специалистом по данным (например, вот один), и я думаю, что в целом это имеет смысл. Тем не менее, есть кое-что еще для доктора философии. за время своего многолетнего исследовательского опыта выпускники развивают исследовательское мышление. Поскольку мне нелегко найти формальное определение в другом месте, я просто придумаю его:

Исследовательский образ мышления - это модели или методы мышления, которые обычно используются исследователями для синтеза целостной картины проблемного пространства из существующих литературных источников, предложения конкретных вопросов, которые представляют ценность для решения, и определения инновационных решений, чтобы наши знания в этой области могли быть использованы. сделать еще один шаг.

Хотя доктор философии опыт - хороший способ сформировать исследовательское мышление, в первую очередь из-за его обширной подготовки и давления, необходимого для публикации рецензируемых статей, я не думаю, что это единственный путь: пока кто-то осознает необходимость развития такого мышления, он всегда можно практиковать в различных сферах / отраслях. Итак, здесь я собираюсь поделиться одним исследовательским мировоззрением: мышлением «первого принципа». Имейте в виду, что исследовательское мышление - это не что-то волшебное, способное превратить человека в «сверхчеловека» в решении проблем; это больше о предоставлении согласованных перспектив для рассмотрения проблемы: эта точка зрения может быть уникальной и может привести к более глубокому пониманию или инновационным решениям. Для меня исследовательское мышление определенно помогает моей карьере специалиста по данным. С учетом сказанного, давайте приступим.

Определите мышление «первого принципа»

Версия Википедии

Согласно Википедии, «первый принцип - это базовое предложение или предположение, которое не может быть выведено из любого другого предложения или предположения ... в физике и других науках теоретическая работа считается основанной на первых принципах или ab initio, если она начинается непосредственно с уровень установленной науки и не делает предположений, таких как эмпирическая модель и параметризация ».

Например, в области вычислительной химии (область моих докторских исследований), если исследование хочет основываться на «первом принципе», его вычисления должны основываться на квантовой механике: потому что любую химическую реакцию можно рассматривать как проявление квантовый мир. Следовательно, «первый принцип» мышления в этой области исследований состоит в том, чтобы смоделировать ядро ​​и электроны с помощью уравнения Шредингера и распространить такие взаимодействия на химическую систему, а затем оценить связанные свойства. В этом «первопринципном» подходе мы можем увидеть два этапа:

  • (идентификация) сначала необходимо определить базовое предложение или допущение, например уравнение Шредингера
  • (приложение), тогда нужно применить такое предложение или допущение к системе, чтобы должным образом изучить желаемое, например запустите моделирование, чтобы увидеть, как происходит химическая реакция

Версия, удобная для науки о данных

Специалисты по обработке данных обычно работают в отраслях, далеких от исследований фундаментальной физики, и обычно нет «уравнения Шредингера», к которому можно было бы вернуться, поэтому необходимо внести некоторые коррективы в то, как найти правильное «базовое предположение». Я думаю, что хорошее «базовое предположение» должно иметь три атрибута:

Во-первых, «базовое предположение» должно быть базовым / фундаментальным в контексте проблемы. Например, если контекст проблемы - «прогнозирование доходов от подписки» для одной компании B2B, то поведение каждого корпоративного клиента (например, подписка, допродажа, отток) можно рассматривать как базовое / фундаментальное; если контекст проблемы состоит в том, чтобы «оптимизировать стоимость постройки ракеты», то понимание ключевых компонентов ракеты и того, как каждый из них сделан, будет считаться базовым / фундаментальным. Здесь предположение обычно находится на более низком уровне по сравнению с контекстом проблемы, так что, как только предположение идентифицировано, оно может быть применено к более высокому уровню, чтобы помочь решить проблему.

Во-вторых, базовое предположение должно поддаваться математической оценке, даже если оно не может быть лучшим описанием реальности. Например, предполагая, что мы хотим изучить поведение потребителей, реагирующих на различные рекламные акции, чтобы максимизировать рост пользователей. Есть два возможных предположения: 1) каждый потребитель рационален 2) каждый потребитель иррационален. Основываясь на экономических исследованиях, мы знаем, что потребители иррациональны (ссылка, ссылка), и их решения зависят от множества факторов и могут даже быть непоследовательными. Однако математически смоделировать иррационального потребителя практически невозможно, поэтому такое допущение, даже если оно верное, нельзя использовать в качестве основного допущения. Между тем, предположение о рациональном потребителе, хотя и имеет много известных проблем, может быть смоделировано в математических терминах, поэтому вместе с некоторыми поправками для учета иррационального поведения при различных обстоятельствах оно могло бы служить лучшим базовым предположением.

В-третьих, «базовое предположение» должно поддаваться проверке в контексте. Поскольку почти ни одно предложение или предположение не будет верным вечно, нам нужно добавить еще один этап в процесс мышления «первого принципа» в мире науки о данных:

  • (проверка) использовать данные для подтверждения выбранного предложения или предположения, чтобы проверить, действительно ли оно в данном контексте и не нарушается ли оно на этапе подачи заявки.

Итак, три этапа: «идентификация -› проверка - ›приложение» составляют «первый принцип» подхода к решению проблем в мире науки о данных.

Приведите в действие мышление, основанное на принципах «первого принципа»

Чтобы лучше проиллюстрировать ход мышления «первого принципа», я собираюсь поделиться одним проектом Data Science в качестве примера с оговоркой о том, что изложенное здесь является значительно упрощенной версией и может немного отличаться от реальности.

Контекст: когда я работал в группе управления рисками в крупнейшей компании по найму пассажиров (подсказка: название начинается с буквы U) в 2016 году, мошенничество на некоторых международных рынках резко возросло. Из-за жесткой конкуренции на борту компания предлагала водителям большие стимулы, соблазняя их остаться с платформой. Наряду с прибыльными поощрениями возможны и мошеннические действия. Общеизвестно, что: и гонщик, и водитель могут быть призрачными (создаваемыми из воздуха), когда призрачный гонщик пытается запросить поездку только у призрачного водителя и генерировать призрачную поездку; после завершения призрачной поездки призрачный гонщик использует функцию наличными, чтобы притвориться, что платит призрачному водителю, позже призрачный водитель берет с платформы реальные поощрительные деньги. Мошенники могут использовать передовую технологию подмены GPS, чтобы задействовать указанную выше схему (ссылка), и узнать, какое путешествие было подделано, всегда сложно. На следующем рисунке показан один пример поездки с подделкой GPS, когда высота полета по GPS находится над землей, поэтому поездка происходит буквально в воздухе.

Возникает проблема: мы знаем только, сколько мошеннических поездок произошло с помощью нашей существующей технологии обнаружения, и не знаем, сколько еще осталось. Это ситуация «мы-не-знаем-неизвестно», и мы хотели бы ее решить. Итак, мы придумали методологию, и я структурирую ее, используя три этапа мышления «из первых принципов»:

Шаг 1. Идентификация: чтобы понять распространенность мошенничества, связанного с поощрением платформы, для каждого запроса на поездку используется один нижний уровень, т. е. является ли один запрос на поездку мошенническим или нет. Чтобы успешно начать мошенническую поездку, необходимо отправить ТОЛЬКО «призрачного» водителя по запросу «призрачного» гонщика: они должны вступить в сговор друг с другом. Если случайно по запросу «призрачного» гонщика отправляется нормальный водитель, «призрачный» гонщик обязательно на 100% отменит запрос. Хотя такое поведение 100% отмены не произойдет для обычных гонщиков, учитывая, что гонщик в основном агностик в отношении точного водителя, которому он соответствует. Математическая формула для описания «основного предположения»:

P(rg, dn) = 100%, P(rg, dg) = 0%

Где P означает вероятность отказа гонщика, «rg» - «гонщик-призрак», «dg» - «водитель-призрак» и «dn» - «нормальный водитель».

В то время как для обычного гонщика поведение отмены будет принципиально другим, оно должно быть гораздо более постепенным. Для простоты предположим, что вероятность отмены рейса зависит только от расстояния между водителем и гонщиком во время отправки. Например, если гонщик видит водителя довольно близко (например, в 100 метрах), вероятность того, что он отменит запрос, значительно ниже; но если отправленный водитель все еще далеко (например, 5 миль), водитель, скорее всего, отменит запрос, если могут быть другие водители ближе. Математическая формула может быть описана как:

P (rn, dn | distance = X) = P (rn, dg | distance = X)

P (rn, d | расстояние = X) ≤ P (rn, d | distance = X + 1)

Где «rn» означает «нормальный гонщик», а «d» - любой водитель.

Шаг 2. Проверка: мы можем просмотреть исторические данные о запросах, отправке и отмене поездок и подтвердили наше понимание обычного поведения пользователя при отмене. Хотя конкретные цифры могут отличаться на разных рынках из-за многих факторов (например, ожиданий гонщиков), основной принцип по-прежнему остается в силе.

Мы также можем проводить эксперименты на не мошеннических рынках, где отсутствуют стимулы для водителей, чтобы дополнительно подтвердить предположение о том, что нормальное поведение водителя при отмене не зависит от конкретного отправляемого водителя. Ключевым моментом здесь является то, что такие предположения могут быть подтверждены данными.

Шаг 3. Применение: после того, как мы прошли этапы идентификации и проверки, мы можем применить его, введя обработку в систему диспетчеризации: случайным образом поменять местами верхний драйвер, который будет отправлен, когда другие драйверы также близки всаднику. Таким образом, даже если главный пилот не будет отправлен, впечатления гонщика не пострадают. При таком подходе мы можем сделать вывод, сколько существует мошеннических поездок!

Предположим, что нормальный уровень отмены рейсов составляет 5% (без обработки), расчетный коэффициент отмены возрастет до 6% из-за изменения расстояния отправки для обычных пассажиров, в то время как фактически наблюдаемый коэффициент отмены составляет 10%. Если x - это% мошеннических запросов на рынке, то:

Мы знаем, что (без лечения): 5% * x + 5% * (1-x) = 5%

Эксперимент показывает, что (с лечением): 100% * x + 6% * (1-x) = 10%

Тогда мы можем вычислить: x = (10–6) / (100–6) = 4,2%

Конечно, такой подход будет применяться только к небольшой части (например, 1%) запросов на поездку случайным образом в сильно мотивированных областях с целью выяснить, насколько существует потенциальный сговор, чтобы оценить распространенность побудительного мошенничества, и количество, используемое здесь только для демонстрационных целей. Предлагаемое лечение может также иметь некоторые ограничения относительно того, какое конкретное мошенническое поведение можно измерить, но оно служит разумной демонстрацией того, как работает мышление «первого принципа».

Мощный молот для правильной задачи

Теперь вы знаете, что такое мышление «первого принципа» и как его можно использовать в контексте науки о данных. Поздравляю!

Между тем, я также хотел бы напомнить вам, что мышление «первого принципа» никогда не должно быть единственной точкой зрения, которой вы придерживаетесь, и при некоторых обстоятельствах оно может даже принести больше вреда, чем пользы: слишком глубоко углубившись в нижний уровень для принципа , это может излишне усложнить проблему или просто потерять общую картину. Это похоже на мощный молоток, но не обязательно, что каждая проблема - это гвоздь. Так что не ограничивайте себя каким-либо одним мышлением, всегда будьте непредубежденными и сосредоточьтесь на решении проблемы, это был бы наиболее эффективный путь.

— — — — — — — — — — — — — —

Если вам понравилась эта статья, помогите распространить информацию, поставив лайк, поделившись ею и комментируя. Вы можете прочитать предыдущие сообщения и подписаться на меня в LinkedIn.

Вот три предыдущие статьи, в которых рассказывается об опыте Pan в области науки о данных:

Мой первый проект в области науки о данных

Как внедрять инновации в науке о данных

Решение проблем в качестве специалиста по данным: пример из практики