«Системы множественных классификаторов» или MCS – это ансамблевые классификаторы, объединяющие несколько отдельных классификаторов. Это отличный новый метод классификации изображений, в частности изображений дистанционного зондирования, то есть изображений, полученных различными датчиками, как объясняется в статье P. Du at al.

Основная идея MCS состоит в том, чтобы создать набор учащихся, называемых «базовыми учениками», и объединить их, чтобы в итоге получить модель, которая работает значительно лучше, чем любая другая отдельная модель, как описано в статья Гонсалвеса. Обратите внимание, что в случае классификации слово «учащийся» можно заменить словом «классификатор». Базовыми обучающимися могут быть такие алгоритмы, как деревья решений, случайные леса, машины опорных векторов, KNN, нейронные сети и другие. Сильные стороны этих объединенных алгоритмов используются для создания надежной и высококачественной модели для задач распознавания образов, как объясняется в статье Tin Kam Ho at al.

Процесс создания MCS можно разделить на четыре шага: создание модели, удаление избыточных моделей, выбор лучших классификаторов и, наконец, интеграция.

Во-первых, набор моделей создается с помощью одного конкретного метода, называемого «гомогенный ансамбль», или нескольких методов, называемых «гетерогенным ансамблем». . Гетерогенные системы более склонны к достижению хорошего разнообразия, чем гомогенные системы. Разнообразие между базовыми учащимися является фундаментальной концепцией ансамблевых стратегий. Поиск группы очень разных учащихся имеет решающее значение для реализации общей модели. Таким образом, удачная комбинация моделей обеспечит точный результат, а недостатки моделей компенсируют друг друга. Основываясь на предположениях о зависимости между учащимися, как объяснил Фьеррес и др., три основных метода для комбинации классификаторов:

  • Бэгинг – это сокращение от "Агрегирование начальной загрузки", которое широко используется, особенно для повышения точности и стабильности моделей обучения, таких как дерево решений. или случайный лес. Бэггинг сталкивается с проблемой дисперсии при обучении на нескольких параллельных деревьях с подмножеством данных, выбранных случайным образом. В более общем смысле метод мешков обучает модели с помощью случайных выборок из набора данных, называемых «выборками начальной загрузки». Таким образом, алгоритм способен увеличить разнообразие ансамбля, что имеет основополагающее значение для достижения хорошей точности результатов. Таким образом, учащиеся строятся параллельно и, наконец, все полученные результаты объединяются с помощью стратегии голосования или усреднения. Случайные леса можно рассматривать как расширение по сравнению с пакетированием, поэтому они более надежны, чем одиночное дерево решений, поскольку они контролируют проблемы дисперсии, которые обычно влияют на DT. Алгоритм Random Forest делает еще один шаг вперед по сравнению с пакетированием: он не только рассматривает случайное подмножество исходного набора данных, но также случайным образом выбирает функции для использования для каждого отдельного дерева. Из-за этой характеристики РФ считаются методом ансамбля, и набор деревьев часто называют «ансамблем».

  • Повышение: использует случайные выборки данных для обучения нескольких учащихся в последовательности и применяет более высокие веса к неверно классифицированным входным данным. Другими словами, на функцию ошибки одной модели влияет предыдущая. Это положительно повлияет на прогноз будущих моделей. Таким образом, слабые ученики поощряются к более точной классификации. Наконец, результаты объединяются с голосованием или стратегией усреднения. Кроме того, распределение данных рандомизировано до выполнения классификации. Таким образом, модель может контролировать как смещение данных, так и дисперсию, и становится намного более эффективной. Этот метод более точен, но требует больше времени, чем предыдущий метод мешков. Широко используемый алгоритм этого типа — «AdaBoosting», что означает «адаптивное усиление». В этом случае выборки данных выбираются случайным образом, но с разной вероятностью быть выбранными. Эта вероятность того, что образец будет обучен в следующей модели, зависит от его неправильной классификации в предыдущих моделях. Еще одним популярным алгоритмом повышения является «Повышение градиента». Это итеративный алгоритм функционального градиентного спуска, целью которого является построение ансамбля слабых моделей таким образом, чтобы прогнозы ансамбля минимизировали функцию потерь. Основная идея состоит в том, чтобы использовать ошибки остатков, рассчитанные с помощью градиентов в функции потерь, вместо взвешенных данных. Примером алгоритма повышения градиента является «XGBoost» или «Экстремальное усиление градиента». Это алгоритм дерева решений с градиентным усилением, который часто используется для выбора признаков.

  • Стекирование: сначала обучаются базовые учащиеся, и в результате получаются промежуточные прогнозы, которые используются для создания нового тренировочного набора. Последний используется для обучения второй модели, называемой «мета-классификатор», которая в конечном итоге дает окончательные прогнозы.

На первом этапе создается много моделей, но некоторые из них могут оказаться избыточными. Чтобы решить эту проблему, после этапа генерации выполняется сокращение, чтобы отбросить бесполезную модель и уменьшить размер ансамбля. Таким образом, как сложность модели, так и требуемый объем памяти снижаются без негативного влияния на общую точность.

Третий этап состоит в выборе лучших классификаторов, на которых основывается прогноз ансамбля. Двумя основными используемыми методами являются статический выбор и динамический выбор. Первый выбирает классификаторы в процессе обучения. С другой стороны, динамический алгоритм осуществляет отбор при классификации для каждой новой тестовой выборки. Таким образом, классификаторы выбираются на основе их локальной точности, вычисленной с помощью алгоритма KNN.

Наконец, этап интегрирования включает в себя комбинированную стратегию для получения окончательного прогноза ансамбля для новых выборок. Базовые учащиеся могут быть объединены с схемой голосования по большинству, то есть с использованием предсказанных меток классов, или с усреднением апостериорных вероятностей каждого класса, найденного одними базовыми учащимися. .

Библиография

  1. Пейцзюнь Ду, Цзюньши Ся, Вэй Чжан, Кун Тан, И Лю и Сиконг Лю. Система множественных классификаторов для классификации изображений дистанционного зондирования: обзор Sensors, 12(4):4764–4792, 2012 г.
  2. Тин Кам Хо, Джонатан Дж. Халл и Саргур Н. Шрихари. Комбинация решений в нескольких системах классификаторов. Транзакции IEEE по анализу шаблонов и машинному интеллекту, 16(1):66–75, 1994.
  3. Джулиан Фьеррес, Айтами Моралес, Рубен Вера-Родригес и Давид Камачо. Несколько классификаторов в биометрии. часть 1: Основы и обзор. Information Fusion, 44:57–64, 2018 г.