Эта вводная серия статей предназначена для общего обзора моделирования выживаемости в контексте прогнозирования отказов машин. Мы расскажем об основах моделей выживания, о том, как можно использовать наблюдаемые исторические данные для повышения эффективности прогнозирования и как эти наблюдаемые данные можно использовать для обучения моделей выживания. В частности, этот пост представляет собой общее введение в:

  • Анализ выживаемости
  • Модель Вейбулла
  • Подбор моделей Вейбулла с учетом наблюдаемых данных

Вопросы, предложения и отзывы приветствуются и могут быть адресованы автору.

Анализ выживаемости

Анализ выживаемости - это раздел статистики, предназначенный для анализа ожидаемой продолжительности до тех пор, пока не произойдет интересующее событие. В общем, наше «интересное событие» - это поломка машины. Мы обозначаем время, когда эта машина выходит из строя, T, где T ›0 (время 0 обозначает время, когда машина была установлена) . Распределение Вейбулла особенно популярно в анализе выживаемости, поскольку оно может точно моделировать время до отказа в реальных событиях и является достаточно гибким, несмотря на наличие всего двух параметров. Мы используем распределение Вейбулла для моделирования распределения времени отказа для парка машин.

Одна критически важная статистика, которая может быть получена из распределения времени отказа, - это функция опасности , h (t). Функция риска представляет собой вероятность отказа в следующем периоде времени t +1, при условии, что актив сохранился до момента t. Тогда математическая формулировка :

h(t) = Pr(T = t+1|T>t)

На основе функции риска для конкретного актива можно получить большое количество разнообразных статистических данных, в том числе:

  • Ожидаемый оставшийся срок полезного использования (RUL)
  • Дисперсия RUL и статистические моменты более высокого порядка, такие как асимметрия и эксцесс
  • Вероятность отказа в определенный момент t
  • Вероятность выхода из строя в течение определенного промежутка времени
  • Вероятность выживания до определенного момента

Последняя из них, известная как функция выживаемости S (t), заслуживает особого внимания, поскольку это одна из наиболее полезных и интуитивно понятных статистических данных, связанных с анализом выживаемости. Функция выживания - это просто вероятность того, что машина выйдет из строя через определенное время t, или, что эквивалентно, что она все еще будет работать в момент t .

S(t) = Pr(T>t)

Со временем становится все более и более вероятным, что машина выйдет из строя в следующий период, учитывая, что она дожила до текущего периода; поэтому функция риска в приведенном выше примере постоянно увеличивается. И становится менее вероятным, что машина все еще будет жива после каждого последующего периода, поэтому функция выживания для одной и той же гипотетической машины уменьшается с течением времени.

Подгонка модели Вейбулла к данным

Все это кажется несколько абстрактным. Какая именно связь между описанной выше моделью Вейбулла и машинным обучением? Конкретно, мы хотели бы использовать наблюдаемые данные, чтобы спрогнозировать оставшийся срок службы каждой группы машин. Чтобы понять, как это можно сделать, проще всего построить модель по частям. Минимальный объем данных, который нам необходим для построения прогнозной модели, - это наблюдаемый срок службы вышедших из строя машин.

Imagine Company X поддерживает парк из 10 000 машин, которые, как известно, подвержены отказам. Они довольно тщательно ведут учет и ведут записи об установке и времени отказа каждой машины, что позволяет легко определить, как долго каждая машина находилась в эксплуатации до того, как вышла из строя. 100 их машин пока неожиданно вышли из строя, и они решают, что с них достаточно. Построив простую гистограмму, они смогут увидеть, что большинство их машин выходят из строя в период от одного до десяти лет после ввода в эксплуатацию:

Если бы только это наблюдаемое распределение времени жизни машин можно было аппроксимировать какой-то моделью, которая позволила бы нам делать полезные прогнозы ...

Как мог догадаться проницательный читатель, мы можем подогнать модель Вейбулла к этим данным. Есть ровно два параметра, известных как параметры shape и scale. Мы можем найти параметры формы и масштаба, которые лучше всего подходят для данных (согласно определенному определению «наилучшего»), используя метод, известный как максимальное правдоподобие. Максимальное правдоподобие в основном говорит: учитывая наблюдаемые данные, из какой из возможных версий распределения Вейбулла наиболее вероятно, что эти данные были получены? После нахождения оптимальной формы и параметров масштаба мы снова строим гистограмму с наложенной подходящей моделью Вейбулла:

Как мы и надеялись, оптимизированная модель Вейбулла достаточно хорошо аппроксимирует распределение времени отказа. Он не полностью соответствует данным, но это неудивительно - у него есть только две «ручки» (параметры), которые можно регулировать, чтобы определить его точную конфигурацию. Но из этого, казалось бы, простого распределения теперь мы можем вычислить:

  • Функция опасности
  • Функция выживания
  • Ожидаемый срок службы
  • И еще много интересной / полезной статистики…

Хотя это полезная отправная точка, нам еще предстоит пройти долгий путь. В рамках этой модели мы будем прогнозировать одно и то же для каждой машины - и, изучив гистограмму выше, становится очень ясно, что каждая машина не выходит из строя через точно такое же количество лет. Не все машины созданы равными, и мы можем использовать эти врожденные различия, чтобы адаптировать наши прогнозы для каждой машины и тем самым значительно повысить точность прогнозов наших моделей.

Но ... чтобы узнать, как это сделать, вам придется дождаться части 2. Следите за обновлениями и спасибо за чтение!