Независимо от того, предназначена ли ваша модель для объяснения или прогнозирования, имеет большое значение для ее дизайна.

Кто-то где-то прямо сейчас строит модель. На самом деле очень много людей. Будь то бизнес, академическое исследование или даже личный интерес, люди все больше и больше используют математику для моделирования явлений реального мира, чтобы получить понимание или принять решения о том, как контролировать эти явления или как реагировать на них.

В последнее время, благодаря большей вычислительной мощности, моделирование стало более сложным. Вместо нескольких ячеек в электронной таблице Excel модели строятся на различных платформах и на разных языках программирования. Некоторые из них основаны на небольших данных, а некоторые - на огромных данных. Усилия по их созданию могут варьироваться от нескольких часов до итеративного проекта, продолжающегося месяцы или даже годы.

Но часто создатели этих моделей не задают достаточно вопросов перед тем, как начать. Они могут просто прыгнуть в это, не задумываясь. Возьмите некоторые данные, настройте формулы, и все готово. За многие годы работы в области математики и статистики я узнал, что успех вашей модели во многом зависит от того, насколько вы заранее обдумываете ее еще до того, как вы откроете файл данных.

В частности, есть один вопрос, который я всегда задаю в самом начале, и тот, который, я считаю, всегда следует задавать аналитикам, специалистам по данным и другим разработчикам моделей: Должна ли моя модель быть объяснительной или предсказательной?

Вероятно, это очевидно из слов, но создана пояснительная модель, чтобы помочь понять, почему что-то происходит. Это может помочь ответить на такие вопросы, как: почему это заболевание возникает у таких людей? Что могло вызвать скачки температуры? Модель прогнозирования создана для максимально точного прогнозирования того, что произойдет, - она ​​ответит на такие вопросы, как: сколько людей мы можем ожидать, что посетят этот торговый центр завтра? Сколько голосов получит каждая политическая партия на следующих выборах?

Один из способов проиллюстрировать это довольно просто - использовать аналогию с владельцем киоска с лимонадом. Владелец киоска с лимонадом воспользуется пояснительной моделью, чтобы понять, почему ее покупателям нравится ее продукт или почему у нее больше клиентов в середине дня, чем вечером - ее в основном интересует лимонад и почему он продается. Однако, если ее главная цель - убедиться, что у нее достаточно лимонов на оставшуюся неделю, она воспользуется прогностической моделью, чтобы помочь ей в этом.

Модели редко могут оптимально достичь обеих целей. Я не думаю, что когда-либо создавал модель, которая одновременно хорошо объясняла бы феномен и одинаково хорошо его предсказывала. И на то есть веские причины. В этой статье я расскажу, как этот выбор влияет на каждую часть построения модели, начиная с ввода исходных данных и заканчивая тем, как вы измеряете ее эффективность.

1. Выбор входных данных (однократное или многократное использование)

Если модель должна быть пояснительной, то процесс моделирования должен происходить только один раз или время от времени в будущем. Приоритет - получить как можно более глубокое понимание вопроса. Следовательно, ни один источник данных не выходит за рамки. Данные, которые плохо отформатированы и нуждаются в существенной очистке, могут быть включены в этот список. Даже старые данные, которые не существуют в электронном виде и все еще находятся в картотеках, могут быть рассмотрены для оцифровки, чтобы быть как можно более исчерпывающими. Точно так же некоторые данные могут быть удалены из модели с целью выявления более глубоких независимых переменных. В медицинской модели возраст может быть исключен, поскольку он является известным фактором восприимчивости к болезням и может доминировать в модели и скрывать другие важные факторы.

Прогнозирующая модель предназначена для повторного запуска снова и снова, так что взаимосвязь, идентифицированная в обучающем наборе, может использоваться для прогнозирования на основе новых данных, которые вводятся в модель. Поэтому данные выбираются в первую очередь на основе того, насколько они будут доступны для прогона моделей в будущем. Во многих современных контекстах это часто означает, что прогнозные модели ограничиваются использованием только данных из подключенных источников, которые легко доступны и предварительно отформатированы для работы с моделью. Кроме того, обычно основной целью является точное прогнозирование, и поэтому в игру вступают любые данные, которые помогают повысить точность прогноза (хотя обычно следует вести здоровую дискуссию о компромиссе между точностью и индуктивным смещением в прогнозных моделях).

2. Используемые методы моделирования (интерпретируемые или «черный ящик»)

Для объяснительной модели критически важны методы моделирования, которые хорошо поддаются интерпретации. Контроль понимания имеет первостепенное значение в объяснительной модели. В логистической регрессии отношения шансов могут помочь нам понять, в какой степени входная переменная влияет на зависимую переменную. Более простые модели дерева решений могут иметь полезную пояснительную цель, поскольку они могут помочь идентифицировать и количественно оценить влияние определенных точек принятия решений на результат.

В прогнозном моделировании мало внимания уделяется интерпретируемости. Возможно, вы слышали термин «модель черного ящика» для описания модели, которая максимизирует предсказательную силу, но слишком сложна по своей природе, чтобы выявить влияние отдельных входных факторов. Нейронные сети - довольно распространенные модели черного ящика. Они очень сложны под капотом и принимают решения на основе многих сотен или тысяч смоделированных и взаимосвязанных нейронов, каждый из которых действует в соответствии с поведением, полученным из обучающей выборки.

3. Измерение производительности модели (соответствие против точности).

Объяснительные модели оцениваются, прежде всего, по той информации, которую они производят, и по их общему соответствию. Степень соответствия - это мера близости между ожидаемыми значениями зависимой переменной и фактическими наблюдаемыми значениями. Возможно и довольно часто объясняющая модель генерирует ценную информацию, даже если общее соответствие неудовлетворительно - это довольно часто, например, в области социальных наук, в которой я работаю в основном. Типичные меры, используемые в результатах объяснительного моделирования включают отношения шансов, R-квадрат (включая псевдо-R-квадрат), тесты хи-квадрат и G-тесты.

Прогностические модели живут или умирают в зависимости от их точности. Измерение точности обычно включает вычисление ошибки в регрессионной модели или компромисс между истинно положительными и ложными положительными результатами в модели классификации. Такие показатели, как средняя абсолютная ошибка и среднеквадратичная ошибка, обычно используются для описания того, насколько хорошо регрессионная модель делает прогнозы. Точность, отзыв, площадь под кривой ROC или F1-оценка (для несбалансированных моделей) являются более типичными мерами, используемыми для оценки точности прогнозов.

С годами я выработал привычку ставить себя на место владельца киоска с лимонадом. Меня интересует лимонад или лимоны? Это действительно хорошая привычка, и я надеюсь, что вы ее освоите.

Изначально я был чистым математиком, затем стал психометриком и специалистом по анализу данных. Я увлечен применением всех этих дисциплин к сложным вопросам людей. Я также помешан на программировании и большой поклонник японских ролевых игр. Найдите меня в LinkedIn или Twitter.