Обнаружение посторонних выбросов - это наиболее распространенное действие, которое большинство спектроскопистов / хемометристов предпринимают для борьбы с несогласованными показаниями. Однако MacroPCA - это альтернативный метод для учета выбросов по ячейкам в спектроскопическом анализе.

В хемометрии многомерная калибровка использует данные, которые часто представлены в виде прямоугольной таблицы, в которой строки i - это образцы, проанализированные спектроскопическим методом (наблюдения), а j - столбцы - это интенсивность сигнала, записанная в диапазоне длин волн с пошаговым приращением системой обнаружения (переменные-предикторы). Многовариантная калибровка направлена ​​на применение широкого спектра статистических методов, методов машинного обучения и все более глубокого обучения для прогнозирования различных целевых переменных на основе записанных спектроскопических данных. Тем не менее, одна из наиболее актуальных проблем, над которой спектроскописты и хемометристы работали в течение некоторого времени, - это разработка надежных методов обнаружения выбросов в спектроскопических данных. Эти данные обычно являются многомерными (с, j≫ i), что затрудняет использование методов обнаружения выбросов, основанных на инверсии ковариационной матрицы. Именно по этой причине был разработан надежный анализ главных компонент (PCA), основанный на преследовании проекции и детерминанте минимальной ковариации, названном ROBPCA. (Подробнее об этом в моей предыдущей статье здесь.)

Как и большинство методов обнаружения выбросов, ROBPCA был разработан для выполнения построчного обнаружения выбросов, то есть наблюдений, которые значительно отклоняются от большинства наблюдений. Однако в последние годы, в результате достижений в исследованиях распространения выбросов (Alqallaf et al., 2009) [Открытый доступ], обнаружение выбросов по ячейкам вызвало повышенный интерес к статистике и хемометрике, поскольку оно дополняет построчные выбросы. обнаружение. Действительно, подозрительные ячейки могут встречаться в любом месте матрицы данных, что дает более четкое представление о качестве имеющихся данных. Здесь мы кратко сравниваем два надежных метода на основе PCA, а именно ROBPCA и MacroPCA для обнаружения выбросов в спектрах лазерно-индуцированной спектроскопии пробоя (LIBS) образцов тканей растений.

Перед LIBS-анализом образцы растений очищали, сушили, гомогенизировали и измельчали. Записанные спектры LIBS были нормализованы для уменьшения межимпульсных флуктуаций (рис. 1).

Обнаружение выбросов по строкам

Как показано на рис. 2, когда наблюдение помечено как выброс (желтым цветом), мы часто оказываемся перед выбором удаления всей строки. Однако при многомерной калибровке удаление нескольких строк из набора данных может быть дорогостоящим в дополнение к непредвиденным последствиям подгонки данных к модели калибровки, а не модели к данным. Кроме того, удаление нескольких строк может значительно изменить распределение целевых переменных, тем самым изменив область калибровки. Другой проблемой при обнаружении большинства построчных выбросов является предположение, что по крайней мере половина строк не содержит выбросов, а это означает, что количество наблюдений, отмеченных как выбросы, не должно превышать i / 2.

Сначала мы выполнили ROBPCA для обнаружения построчных выбросов в нашем наборе данных, которые включают визуализацию диаграммы разброса оценок вместе с соответствующей картой выбросов. На рис. 3 мы видим, что наш набор данных содержит только ограниченное количество спектров LIBS, которые считаются плохими точками воздействия (т. Е. Высокими ортогональными и оценочными расстояниями).

Обнаружение выбросов по ячейкам

На рисунке 4 ниже, за счет принятия другого концептуального подхода, обнаружение выбросов по ячейкам особенно интересно, поскольку оно позволяет более внимательно изучить отдаленные ячейки (или столбцы), особенно при определении переменных длины волны в нашем высоком размерные спектральные данные более ответственны за наблюдаемое необычное поведение.

Фактически, новый метод PCA, сочетающий в себе два существующих надежных метода, DetectDeviatingCells (Rousseeuw and Van Den Bossche, 2018) [Open Access] и ROBPCA (Hubert et al., 2005), был введен для обеспечения устойчивости к обоим ячейкам. и построчные выбросы. Этот метод получил название MacroPCA (Hubert al., 2019) [Open Access], что означает PCA, учитывающую пропущенные значения, а также выбросы по ячейкам и строкам (рис. 5).

Сравнение ROBPCA и MacroPCA

Лучший способ сравнить два метода - построить карту соответствующих ячеек (рис. 6). Карта ячеек - это мощное отображение необычных ячеек. В частности, необычно большие значения ячеек окрашены в красный цвет, а необычно низкие значения ячеек окрашены в синий цвет. Более того, большое количество необычных ячеек в одной строке будет иметь тенденцию загрязнять всю строку, делая наблюдение помеченным как выброс. То же самое можно сказать и о столбцах. (Подробнее о коде здесь). На рисунке 6 видно, что MacroPCA позволяет идентифицировать ряд проблемных наблюдений (строк) в дополнение к длинам волн (столбцы), интенсивности которых необычны по сравнению с типичными значениями.

Резюме

Как отмечалось в начале этой статьи, удаление - одно из наиболее распространенных действий, которые большинство спектроскопистов применяют для работы с построчными выбросами. Однако, как мы видели, альтернативный метод, такой как MacroPCA, позволяет учитывать выбросы как по строкам, так и по ячейкам в спектроскопическом анализе. Добавьте к этому тот факт, что в большинстве калибровочных работ количество калибровочных образцов часто ограничено, поэтому наличие другого метода, доступного для работы с выбросами, может снизить излишний энтузиазм по удалению выбросов.