Это сообщение в блоге соответствует проекту Capstone программы Udacity Data Scientist Nanodegree. Полный анализ, а также код Python, используемый для этой цели, можно найти в этом репозитории GitHub.

1. Введение

Газовые турбины зарекомендовали себя как незаменимый инструмент и нашли применение на суше, море и в воздухе в качестве силовых установок и генераторов энергии, среди прочего. Компоненты газовой турбины со временем неизбежно изнашиваются,
что приводит к снижению производительности (мощности на валу, тяги и т. Д.).

Методы машинного обучения позволяют создавать математические модели, которые могут позволить авиакомпаниям и эксплуатантам самолетов выявлять и изолировать деградацию двигателей их флотов путем анализа эксплуатационных данных. Приняв такой подход, эти компании могли бы избежать ненужных остановок для ТОиР (техобслуживание, ремонт и капитальный ремонт), предотвратить более высокий расход топлива из-за деградации некоторых компонентов или даже серьезных инцидентов.

2. Описание проблемы и подход к ее решению.

2.1 Анализ проблемы

Целью этого проекта является разработка и обсуждение методологий и алгоритмов для мониторинга состояния работоспособности и проведения профилактического обслуживания двигателей коммерческих самолетов на основе только информации, собранной датчиками, установленными внутри двигателя.

2.2 Предлагаемое решение

Учитывая временные ряды измерений предварительно выбранного набора бортовых датчиков из реального парка двухконтурных двигателей, предлагаемые модели машинного обучения должны максимально точно оценивать состояние здоровья различных компонентов двухконтурных двигателей (вентилятора, компрессоров и турбин).

Для этой цели необходимы большие наборы обучающих данных с известным статусом работоспособности каждого компонента, а также измерения датчиков. Благодаря имеющимся моделям газовых турбин можно с высокой точностью воспроизвести поведение реальных турбовентиляторных двигателей в различных условиях полета и деградации. Наборы данных, используемые для этого проекта, были созданы с помощью C-MAPSS (Моделирование коммерческой модульной авиационной двигательной установки).

Модели машинного обучения должны предсказывать эволюцию состояния здоровья различных компонентов ТРДД на всех проанализированных полетах, используя измерения датчиков в реальном времени в качестве входных данных.

2.3 Показатели оценки

Чтобы оценить точность каждой модели, коэффициент детерминации, также известный как значение «R-квадрат», будет рассчитан между реальными значениями ухудшения качества и значениями ухудшения, полученными каждой моделью для тестового набора. Значение R-квадрат для набора поездов также будет рассчитано, но только в качестве дополнительной информации.

Помимо значения R-квадрата для общего набора параметров деградации тестового набора, R-квадрат для каждого параметра будет рассчитываться независимо и сравниваться между моделями. Это обеспечит хорошее представление о том, какой вид деградации какого компонента ТРДД может быть легче предсказан, а в каких случаях это будет сложнее.

R-квадрат был выбранными показателями или критериями оценки различных моделей машинного обучения, поскольку он обеспечивает меру того, насколько хорошо наблюдаемые результаты воспроизводятся моделью, на основе доли общей вариации результатов, объясняемой моделями.

3. Исследовательский анализ данных

3.1 Проблема с большим размером файлов

Для этой задачи были загружены большие наборы данных, которые можно найти на веб-сайте НАСА и которые были сгенерированы программным обеспечением C-MAPSS. Эти наборы данных содержат временные ряды (скорость 1 секунда), соответствующие множеству параметров, что приводит к большим размерам, которые невозможно обработать на стандартном ноутбуке. Поскольку все параметры экстраполируются на один и тот же временной тег, предложенное решение заключалось в том, чтобы взять только 1 строку из 100. Приняв этот подход, можно было работать с файлами допустимого размера без потери отслеживаемости измерений датчиков или значений параметров деградации на протяжении всего полета.

3.2 Описание параметров

Параметры, анализируемые в этом проекте, можно разделить на измерения, параметры состояния здоровья и вспомогательные параметры.

3.2.1 Измерения сенсора

Эти параметры представляют собой физические величины (температуру, давление, высоту, скорость вращения вала и т. Д.), Которые могут быть измерены бортовыми датчиками. Эти измерения соответствуют независимому набору параметров или входным параметрам для наших моделей машинного обучения. Список измерений представлен ниже:

- alt: высота (футы)
- Mach: число Маха
- TRA: угол дроссельной заслонки (%)
- T2: общая температура на входе вентилятора
- T24: общая температура на выходе компрессора низкого давления (° R)
- T30: Общая температура на выходе компрессора высокого давления (° R)
- T48: Общая температура на выходе из турбины высокого давления (° R)
- T50: Общая температура на выходе из турбины низкого давления (° R)
- P15: Общее давление в байпасном канале (psia)
- P2: Общее давление на входе вентилятора (psia)
- P21: полное давление на выходе из вентилятора (фунт / кв. Дюйм)
- P24: полное давление на выходе компрессора низкого давления (фунт / кв. Дюйм)
- Ps30: статическое давление на выходе компрессора высокого давления (фунт / кв. Дюйм)
- P40 : Полное давление на выходе из горелки (psia)
- P50: полное давление на выходе турбины низкого давления (psia)
- Nf: частота вращения вала низкого давления (об / мин)
- Nc: высокое давление частота вращения вала (об / мин)
- Wf: Расход топлива (pps)

3.2.2 Параметры состояния работоспособности

Эти параметры относятся к изменению состояния компонентов подсистемы. Они представлены в процентах. Ухудшение состояния различных компонентов (компрессоров, турбин) влияет на их характеристические кривые. Это зависимые параметры набора данных, то есть набор параметров, которые должны максимально точно прогнозироваться моделями машинного обучения. Список параметров здоровья, используемых в проекте, представлен ниже:

- fan_eff_mod: КПД вентилятора (изменение%)
- fan_flow_mod: Расход воздуха вентилятора (% изменение)
- LPC_eff_mod: КПД компрессора низкого давления (изменение%)
- LPC_flow_mod: Расход воздуха компрессора низкого давления (% изменение)
- HPC_eff_mod: КПД компрессора высокого давления (изменение%)
- HPC_flow_mod: Расход воздуха компрессора высокого давления (изменение%)
- HPT_eff_mod: КПД турбины высокого давления (изменение%)
- HPT_flow_mod: воздушный поток турбины высокого давления (изменение%)
- LPT_eff_mod: КПД турбины низкого давления (изменение%)
- LPT_flow_mod: воздушный поток турбины низкого давления (изменение%)

3.2.3 Вспомогательные параметры

Параметры, которые также включены во входные наборы данных и полезны для визуализации данных и выбора наборов обучающих тестов. Они не будут частью окончательного набора для обучения и тестирования, то есть не будут частью алгоритмов машинного обучения. Это следующие параметры:

- unit: параметр, который идентифицирует каждую турбовентиляторную установку в каждом наборе входных данных
- cycle: параметр, указывающий количество полетов для каждой турбовентиляторной установки

3.3 Обзор данных

Основные статистические данные измерений сенсора и наборы параметров деградации показаны в таблицах ниже.

3.4 Распределение данных и обсуждение выбросов

3.4.1 Распределение данных измерений сенсора

Распределение измерений различных датчиков показано ниже на разных прямоугольных диаграммах.

Можно заметить, что существует множество параметров (температура, давление, частота вращения и расход топлива), которые превышают Q3 + 1,5 IQR и / или Q1–1,5 IQR. Однако распределения точек за пределами этого диапазона по-прежнему гладкие, нет точки, которая была бы далеко от остальной части распределения, и значения кажутся в диапазоне, который можно было бы ожидать от реального авиационного двигателя. Следовательно, они не будут рассматриваться как выбросы и не будут удалены из набора данных.

3.4.2 Распределение данных параметров состояния здоровья

Распределение параметров деградации показано на следующих прямоугольных диаграммах.

Распределение всех параметров состояния здоровья намного превышает предел правила 1.5 IQR. Однако это объясняется природой данных и тем, как набор данных был создан с помощью моделирования C-MAPSS. Значение ухудшения состояния работоспособности для всех компонентов было принято равным 0 для большинства узлов двигателя. Напротив, для небольшой выборки агрегатов двигателей и полетов навязанная деградация достигает значений до 20%.

Это причина, которая объясняет небольшое значение межквартильного диапазона (IQR), но огромную разницу между медианным и крайним значениями (в данном случае минимальные значения, поскольку деградация определяется как отрицательная при повреждении компонентов двигателя).

Целью этого проекта является фактическое обнаружение и количественная оценка этой деградации, которая может повлиять на производительность компонентов двигателя, но появляется только иногда, и отличить ее от состояния работоспособности компонентов двигателя, не подвергшихся деградации.

Подводя итог, в то время как с математической точки зрения существует множество моментов, которые можно было бы обозначить как «выбросы», целью данного исследования является, в частности, их идентификация и количественная оценка относительно номинальных характеристик двигателя. Следовательно, они не удаляются из набора данных.

3.5 Проверка отсутствующих значений

В наборе данных не найдено пропущенных значений. Поскольку данные были сгенерированы с помощью инструмента моделирования C-MAPSS, на самом деле отсутствующих значений не ожидалось. Однако при работе с измерениями реальных датчиков всегда рекомендуется проверять недостающие значения, поскольку они иногда не работают. Это особенно важно для газовых турбин и авиадвигателей, где датчики подвергаются экстремальным условиям, которые могут привести к их выходу из строя.

4. Анализ чувствительности

Хорошим первым шагом для этого анализа будет общий обзор зависимостей между показаниями датчиков и ухудшением характеристик компонентов двигателя. Для этого в матрице ниже показаны абсолютные значения корреляции между измерениями датчиков и параметрами состояния здоровья.

Ожидается, что параметры состояния работоспособности с более высокими значениями корреляции с измерениями датчиков будут легче прогнозироваться с помощью моделей машинного обучения. В нашем конкретном случае эффективность компрессора низкого давления и турбины высокого давления имеет более высокие значения корреляции с измерениями датчиков, тогда как воздушный поток турбины низкого давления имеет очень низкие значения корреляции со всеми измерениями датчиков, за исключением их общей температуры на входе и выходе.

5. Точность и сравнение моделей машинного обучения.

5.1 Выбор методов машинного обучения

Множественные регрессионные модели легко реализовать и позволяют точно понять связь каждого отдельного фактора с результатом.

Уравнения и соотношения, описывающие эволюцию воздушного потока через газовую турбину, сильно нелинейны, поэтому модель линейной регрессии исключается как подходящее решение предложенной проблемы. Однако модель множественной линейной регрессии степени 4 или выше, принимая во внимание большой размер набора данных в этом проекте, неосуществима, если не доступен суперкомпьютер.

По всем этим причинам множественная полиномиальная регрессия степени 2 и 3 была предложена в качестве подходящего решения с точки зрения точности и вычислительных затрат.

С другой стороны, нейронные сети с годами набирают популярность и могут быть хорошим альтернативным решением из-за их способности работать с недостаточным объемом информации. Возможности создания модели нейронной сети безграничны. Для этой модели мы будем следовать эмпирическим правилам для определения нашей нейронной сети, но со следующими отклонениями:

  • Промежуточные слои имеют 32 узла вместо значений между размером ввода и размером вывода (это обеспечивает лучшие общие результаты)
  • Выполняется только выпадение 12% узлов между обоими промежуточными слоями (меньшие значения отсева приводят к переобучению, более высокие значения к снижению точности)
  • Масштабирование данных выполнялось с помощью sklearn StandardScaler (sklearn MinManScaler не подходит для этой задачи)

По всем причинам, описанным выше, для этого проекта были выбраны следующие модели машинного обучения:

1. Множественная полиномиальная регрессия, степень 2

2. Множественная полиномиальная регрессия, степень 3.

3. Нейронная сеть (входной слой, выходной слой и два промежуточных слоя).

5.2 Сравнение результатов, полученных с помощью различных моделей машинного обучения

Значения R-score, полученные с помощью каждой модели машинного обучения как для обучающего, так и для тестового набора, показаны в следующей таблице.

Значения R-score, полученные для набора тестов для каждого параметра состояния здоровья с помощью каждой модели машинного обучения, показаны на гистограмме ниже.

Модели полиномиальной регрессии в целом дали хорошие результаты. Модель множественной регрессии степени 3 улучшает во всех случаях ее аналог степени 2.

Нейронная сеть, с другой стороны, не может достичь значения r-score, равного 0,50, при прогнозировании ухудшения эффективности компрессора низкого давления и расхода воздуха. Во всех случаях его точность превосходит множественную полиномиальную регрессию 3-й степени.

В качестве примера на графиках ниже показано ухудшение двух параметров состояния работоспособности для конкретного блока двигателя во время полета. Проведено сравнение реальной эволюции деградации и рассчитанной по каждой модели машинного обучения.

Эволюция всех параметров состояния работоспособности для всех узлов двигателя может быть рассчитана и отображена благодаря коду Python, используемому в этом проекте.

6. Оценка результатов

Для прогнозирования состояния небольшого парка турбовентиляторных двигателей использовались три разные модели машинного обучения: множественная полиномиальная регрессия со степенями 2 и 3 и нейронные сети.

Модель множественной полиномиальной регрессии в среднем дала очень хорошие результаты. Полиномиальная регрессия степени 3 обеспечила даже лучшие результаты с точки зрения точности R-балла и чистоты временных графиков. С коэффициентом детерминации 0,88, когда максимальное значение равно 1, можно сделать вывод, что модель способна идентифицировать, изолировать и количественно оценить деградацию в различных компонентах ТРДД.

Напротив, модель нейронной сети дала результаты, которые можно было считать приемлемыми, но не такими хорошими по сравнению с моделями множественной полиномиальной регрессии. Точность по величине R-квадрата хуже в случае модели нейронной сети. Кроме того, развитие графика времени выглядит более шумным. Время обработки также выше, что является еще одним недостатком такого подхода.

Зависимости между различными компонентами и параметрами турбовентиляторного двигателя сильно нелинейны. Тем не менее, можно отслеживать и прогнозировать состояние исправности компонентов с высокой точностью, снабжая модель множественной полиномиальной регрессии степени 3 измерениями встроенных датчиков. Перед этим необходимо провести хорошее моделирование тестируемого турбовентиляторного двигателя (с такими инструментами, как C-MAPSS) и создать большой набор данных с различными комбинациями деградированных компонентов и уровня деградации.

7. Будущие улучшения

В разделе 5.1 уже объясняется, что множественная полиномиальная регрессия степени 4 и выше не рассматривается, поскольку это невозможно с точки зрения вычислительной мощности большинства распространенных портативных компьютеров. Но с помощью суперкомпьютеров можно было бы сравнить результаты моделей множественной полиномиальной регрессии с более высокими степенями и проверить, в какой момент модель начинает переобучаться.

Что касается нейронных сетей, возможности настройки сети безграничны. Модель можно адаптировать, чтобы иметь большее количество промежуточных уровней, изменять количество их узлов, пробовать различные функции активации, проверять оптимальное значение выпадения перед каждым слоем и т. Д.

С точки зрения выбора сенсорных измерений и параметров деградации удивительно отсутствие информации о камере сгорания. Это компонент газовой турбины, который страдает от самых высоких температур и давлений. Ухудшение работы камеры сгорания, например потеря давления или неполное сгорание топлива, может привести к резкому снижению тяги, создаваемой двигателем. Настоятельно рекомендуется включать камеру сгорания при мониторинге состояния авиационного двигателя.

8. Заключение и заключительные мысли.

Машинное обучение и анализ данных оказались мощными инструментами в рамках профилактического обслуживания авиационных двигателей.

Этот новый подход к техническому обслуживанию самолетов становится все более актуальным с годами. Производители самолетов знают об этом и уже предлагают услуги и решения в соответствии с потребностями авиакомпаний. Airbus Skywise, открытая платформа данных для авиации, запущенная европейским производителем Airbus, вероятно, лучший тому пример. Десятки авиакомпаний уже заключили контракты на предоставление своих услуг, таких как обслуживание часов и профилактическое обслуживание.

Эта цифровая революция уже меняет отрасль в самых разных секторах, от авиации и автомобилестроения до банковского дела и рекламы. Если вы хотите подготовиться к будущему и улучшить свои навыки анализа данных и машинного обучения, вы можете щелкнуть эту ссылку, чтобы узнать больше о Udacity Data Scientist Nanodegree.