Сохранение актуальности вашей производственной модели

Хорошая модель нуждается в любви и внимании, если она остается такой же полезной, как в первый день, на протяжении всей своей жизни.

Любая статистическая модель или модель машинного обучения будет со временем терять производительность по мере изменения отношений. Иногда это происходит очень внезапно, как это случилось со многими моделями кредитного дефолта во время GFC. В других случаях деградация происходит в течение более длительного периода и может быть почти предсказана кем-то, кто наблюдает за тенденцией.

Что движет деградацией? Во-первых, независимо от того, насколько вы осторожны, в какой-то степени ваша модель соответствовала шуму или скрытым факторам, то есть с самого начала было неправильно, а в какой-то мере ваша точность была обусловлена ​​случайностью.

Следующая проблема в том, что вещи действительно меняются. Подумайте о модели автострахования, в которой есть переменные, связанные с характеристиками транспортного средства. Некоторые из этих переменных будут эффективными индикаторами риска, потому что они коррелируют с покупательским выбором рискованных водителей, но поскольку покупательские предпочтения меняются с течением времени, например, предпочтение более или менее экономичных автомобилей по мере изменения цен на топливо, корреляция также изменится. Точно так же модель кредитного дефолта, обученная в хороших экономических условиях, может легко упустить факторы, которые увеличивают вероятность дефолта в плохих условиях.

Интуитивно из этих двух примеров вытекает то, что модели, зависящие от человеческого поведения, могут быть особенно подвержены деградации, тогда как модели, которые в некотором смысле более тесно связаны с физическими процессами, могут иметь некоторую дополнительную стабильность. Из этого, в свою очередь, следует, что ключевым союзником в понимании того, насколько это риск для вашей модели и в течение какого периода времени, будет вашим экспертом в предметной области, и в большинстве случаев будет разработан регулярный график проверки и переподготовки модели.

В то же время вы, вероятно, захотите использовать то, что вам говорят ваши данные, поэтому вам понадобятся методы, чтобы определить, изменились ли вновь поступившие входные данные. Это особенно актуально для быстро меняющихся обстоятельств.

В случае входных переменных, где точки данных имеют высокую степень независимости, контрольные диаграммы, используемые в статистическом управлении процессом, могут использоваться для обнаружения изменений в процессе.

Существует множество руководств по использованию этих диаграмм как в печатном, так и в интерактивном режиме, и они успешно используются в течение многих лет. Их общий элемент состоит в том, что измерения процесса последовательно наносятся на диаграмму с центральной линией на уровне среднего (или другого подходящего среднего значения процесса), а верхняя и нижняя линии представляют собой обычный диапазон процесса. Соответственно, легко установить, когда процесс изменил свой диапазон или свой средний результат.

Однако, особенно для атрибутивных или категориальных данных, методы, разработанные для использования с относительно небольшими данными, могут давать проблемные результаты при использовании с гораздо большими объемами данных.

В пакете qicharts в R реализовано одно решение этой проблемы - простые диаграммы, разработанные Дэвидом Лэйни, которые продолжают давать точные результаты при использовании больших подгрупп. Этот пакет содержит полный набор диаграмм контроля качества, поэтому вы сможете найти ту, которая соответствует вашим потребностям.

По-прежнему требуется некоторая осторожность при настройке режима выборки для непрерывных данных - и обратите внимание, что нет необходимости использовать полные данные, собираемые каждый день, чтобы проверить, поддерживает ли процесс входной переменной характеристики, которые он имел при внедрении модели, просто то, что он достаточно большой, чтобы быть репрезентативным.

Конечно, необходимо сбалансировать усилия, необходимые для реагирования на изменения, и выгоды, особенно в моделях с большим количеством входных данных. Если вы выполнили анализ FMEA для своей модели, например, при первом внедрении, вы уже будете иметь представление об относительной важности различных входных данных и о влиянии изменений конкретных переменных на общую производительность модели. В некоторых случаях может быть ненужным предпринимать какие-либо действия; другие изменения могут потребовать немедленных действий для предотвращения принятия неверных решений.

Разумное наблюдение за моделями в сочетании с хорошо продуманным графиком проверок моделей имеет важное значение для поддержания отличной производственной модели в актуальном состоянии. Приоритизация проверок ключевых переменных и настройка предупреждений о том, когда произошло изменение, гарантируют, что вы никогда не будете удивлены изменением среды, которое лишает вашу модель ее эффективности.

Зацени меня на Leanpub!