Предварительная обработка несбалансированных наборов данных с использованием выбора признаков.

Известно, что проблема дисбаланса классов значительно ухудшает эффективность классификации и привлекает все большее внимание исследователей. Выбор признаков (FS) выделяется в литературе как одна из процедур предварительной обработки набора данных, которая улучшает обучение на несбалансированных данных. В этой статье мы решили изучить причины этого, изучив влияние FS на несбалансированные наборы данных.

Здравствуйте, читатели Медиума! Наконец-то я нашел время, чтобы продолжить серию рассказов о работе с несбалансированными наборами данных в машинном обучении. В первой части этой серии я представил введение в проблему и представил обзор литературы по обучению на несбалансированных данных. В этой истории я буду иметь дело с предварительной обработкой несбалансированных наборов данных с использованием выбора признаков. Напомню, что эта история является второй в серии, которая разделена на четыре части, как показано на рисунке ниже.

Введение

Выбор признаков (FS) — важная процедура предварительной обработки набора данных, которая уменьшает размерность задачи и повышает производительность различных классификаторов. Это также считается ключевым шагом для уменьшения степени перекрытия классов, поскольку потенциально удаляет те функции, значения которых являются общими для большого количества экземпляров разных классов в наборе данных. Выполнение этой процедуры предварительной обработки может улучшить распознавание меньшинств в несбалансированных наборах данных.

Это звучит как отличное обстоятельство для FS. Чтобы помочь вам понять важность и полезность процедуры FS, давайте сначала кратко представим концепцию признаков и то, как они формируются. Одним из начальных шагов в выполнении задачи классификации является определение и извлечение признаков, описывающих экземпляры в наборе данных.Количество признаков определяет размерность проблемы, а их значения определяют положение экземпляров во входном пространстве. Функции обычно определяются интуитивно или с помощью различных процедур, которые извлекают диапазон значений из изображений, текста, звука, различных сигналов и других источников. Идеальная процедура извлечения признаков должна извлекать только наименьшее количество признаков, необходимых для установления четкой границы между классами. Такое распределение экземпляров во входном пространстве делает работу классификатора тривиальной, что также способствует его производительности. Однако, поскольку такие функции невозможно предсказать заранее, наборы данных реального мира часто содержат функции, которые не помогают различать экземпляры разных классов или даже усложняют его, устанавливая различные нежелательные внутренние характеристики данных, такие как класс перекрывать. Это особенно проблематично влияет на распознавание класса меньшинства, поскольку в основном его экземпляры неправильно классифицируются в области перекрывающихся классов. Кроме того, экземпляры нередко описываются слишком большим количеством функций, что может вызвать проблему, в просторечии известную как "проклятие размерности". Описание экземпляров с большим количеством функций делает их еще более отдаленными во входном пространстве, что особенно затрудняет изучение концепции миноритарного класса.

Чтобы избежать вышеуказанных проблем, процедуры FS должны выбирать только наиболее релевантные из извлеченных функций.

Подходы к выбору признаков

Цель процедуры FS — выбрать относительно небольшое подмножество доступных функций в соответствии с определенным критерием, что обычно приводит к меньшей сложности, более легкой интерпретации и лучшей производительности¹. По критериям выбора признаков подходы FS можно разделить на четыре группы².

Подходы к фильтрации (или для краткости фильтры) ранжируют отдельные функции на основе показателей общих характеристик данных (таких как согласованность, расстояние, прирост информации и корреляция¹) и выбирают заранее определенное количество функций с наивысшим рейтингом. Однако выбор только лучших функций не обязательно обеспечивает наилучшую производительность. Ранжирование функций может отбрасывать слаборелевантные функции сами по себе, но в сочетании с другими упрощает различение экземпляров разных классов³. Фильтры отделяют FS от обучения классификатора, тем самым избегая смещения полученного подмножества признаков в сторону конкретного классификатора. С другой стороны, фильтры не учитывают сложные взаимодействия между признаками и игнорируют влияние полученного подмножества на эффективность классификации⁴.

Подходы с оболочкой устраняют недостатки фильтров, используя производительность классификатора для определения качества подмножества признаков. По сути, они представляют собой механизм поиска, который «обертывает» классификатор, рассматривая его как черный ящик, производительность которого является компонентом функции пригодности поиска. Основные шаги, выполняемые обёрткой, показаны на рисунке.

Алгоритм поиска внутри оболочки находит подмножества признаков, на которых следует обучать классификатор. Затем обученная модель оценивается на отдельном проверочном наборе, и дальнейший поиск направляется в зависимости от ее качества. Решения в пространстве поиска обычно представляются в виде бинарных векторов, используемых в качестве маски, значения которой определяют отклонение или сохранение того или иного признака. Функция пригодности обычно представляет собой одну из мер эффективности классификации или более сложную меру, которая также включает количество выбранных признаков. Наиболее известными в литературе оболочками являются Последовательный прямой выбор (SFS) и Последовательный обратный выбор (SBS), которые добавляют или удаляют по одной функции за раз и одновременно оценивают качество производного подмножества. Основным ограничением этих оболочек является невозможность переоценить полезность той или иной функции на более позднем этапе после принятия решения о ее сохранении или удалении (так называемый «эффект вложенности»)⁵. . Таким образом, оболочки все чаще основываются на алгоритмах оптимизации на основе биотехнологий, поскольку они позволяют осуществлять направленный поиск в большом пространстве поиска. Эти алгоритмы считаются жизнеспособным вариантом для оболочек из-за способа, которым они выполняют поиск, и их способности определять сложные отношения между функциями.

В литературе также было предложено несколько гибридных подходов, объединяющих различные фильтры и оболочки для использования преимуществ обоих миров. Однако они могут быть очень сложными, и их эффективность зависит от выбора правильной комбинации фильтров, оберток и классификаторов, определение которых представляет собой серьезную проблему.

Наконец, встроенные подходы выполняют FS вместе с обучением модели классификации. В процесс обучения классификатора можно интегрировать различные фильтры или обертки. Включение этих подходов еще больше усложняет процесс обучения, а выбранное подмножество признаков обычно смещается в сторону обучающего набора и выбранного классификатора.

Подходы FS к несбалансированным проблемам

Более полный обзор подходов FS можно найти в Ref.². Производительность упомянутых подходов была протестирована специально для несбалансированных наборов данных в Ref.⁶, и было показано, что обертки обеспечивают лучшую производительность классификации, чем фильтры и встроенные подходы. Обертки — один из самых сложных подходов к FS, но стоимость их внедрения обычно оправдывается их способностью находить меньшие и более качественные подмножества функций. Алгоритм поиска является ключевым компонентом оболочки, при этом ряд алгоритмов оптимизации, основанных на биологическом опыте, проверяются как действительные подходы для направленного исследования пространства поиска.

Экспериментальный анализ биоинспирированных оберток

Чтобы определить полезность биоинспирированных оберток для несбалансированных задач, я провел соответствующий экспериментальный анализ. Экспериментальный анализ был выполнен на стандартных наборах данных для оценки недавно предложенных процедур FS в литературе, и их характеристики показаны в таблице ниже. Эти наборы данных взяты из репозитория UCI⁷ и представляют собой различные проблемы классификации, которые, помимо своей природы, различаются размерностью и степенью дисбаланса классов.

Генетический алгоритм (GA), дифференциальная эволюция (DE) и оптимизация роя частиц (PSO) были показаны в нескольких экспериментальных исследованиях⁸ ⁹ как наиболее подходящий выбор для оберток, созданных на основе биотехнологии, благодаря их характеристикам. Используемые настройки параметров этих оболочек были взяты из экспериментального анализа, проведенного в Ref.⁸, и показаны в таблице ниже. Условием завершения поиска каждой оболочки было выполнение заданного максимального количества вычислений (NFEsmax) функции пригодности, которая представлена ​​мерой F1. Чтобы получить представление о производительности протестированных оболочек на уровне классификатора, каждая из трех оболочек была интегрирована с каждым из четырех классификаторов, показанных в таблице (1-NN, 5-NN, GNB и SVM).

Перед запуском оберток из каждого набора данных были получены подмножества для обучения, проверки и тестирования в соотношении 0,50:0,25:0,25. Первые два подмножества доступны каждой оболочке для выполнения поиска, а третье служит для понимания обобщения, которое классификатор достигает на основе решений, найденных оболочкой. Это было повторено 30 раз, чтобы получить более общее представление о производительности оберток, созданных на основе биоматериалов.

Результаты

Соответственно, производительность каждого классификатора была протестирована до и после выбора признаков. По сути, сравнивалась производительность классификаторов на тестовых подмножествах (которые не использовались во время поиска оболочки). Для каждого набора данных сравнивались средние баллы F1, полученные классификаторами при обучении с использованием всех функций и только тех функций, которые выбраны оболочкой. Результаты показаны в таблицах ниже, где производительность классификатора по полному набору признаков (с использованием всех признаков) обозначена как «Полный». Внизу таблиц указаны средние ранги и расстояния от идеального классификатора. Лучшие значения этих результатов показаны жирным шрифтом для каждой комбинации оболочки, набора данных и классификатора. Наряду со средним качеством решений в процентном выражении также показано среднее уменьшение числа признаков (обозначено красным).

Основываясь на показанных рангах и расстояниях от идеального классификатора, можно сделать вывод, что классификаторы обычно достигают лучшей производительности при обучении на сокращенных подмножествах функций (с функциями, выбранными обертками), а не на полных, независимо от комбинации био-алгоритма и классификатора. После выбора признаков производительность классификаторов улучшилась для подавляющего большинства наборов данных, в основном на несколько процентов, а иногда и до нескольких десятков процентов в показателе F1. Кроме того, нет существенной разницы в производительности оболочки на уровне классификатора, что подтверждает утверждение о том, что все три алгоритма (GA, DE и PSO) можно считать допустимым выбором для оболочки.

Следует также отметить, что обертки значительно уменьшают размерность задач, так как коэффициент уменьшения варьируется от 40 до 70% для большинства наборов данных. Учитывая, что уменьшение размерности задачи является одной из целей FS, такое поведение еще больше повышает полезность оболочки. FS может быть полезен, даже если он поддерживает производительность классификатора, но, по крайней мере, снижает сложность задачи.

Как отмечалось ранее, процедура FS является одним из наиболее распространенных подходов к решению проблемы дисбаланса классов в литературе, поскольку она обычно снижает сложность концепции класса меньшинства и, таким образом, улучшает ее признание. Чтобы понять это, для всех наборов данных были выведены различия в работе классификаторов до и после отбора признаков в терминах достигнутых значений мер F1 и TPR (ΔF1 и ΔTPR), и их зависимости показаны на графике. рисунок ниже.

На рисунке показана пропорциональность различий в значениях показателей F1 и TPR, что указывает на то, что увеличение общей производительности классификатора в первую очередь является результатом увеличения производительности распознавания класса меньшинства. Положительный эффект FS особенно заметен на несбалансированных наборах данных, отмеченных символом × на рисунке. Учитывая, что различия, показанные для большинства этих наборов данных, находятся в первом квадранте графика, можно сделать вывод, что процедура FS приводит к повышению эффективности общей классификации и успешности распознавания класса меньшинства. На небольшом количестве наборов данных реализация процедуры FS имеет эффект, противоположный вышеописанному, но он менее выражен по сравнению с увеличением показателей F1 и TPR, вызванным FS на большинстве других наборов данных (особенно несбалансированных).

Заключение

Изучение несбалансированных данных является сложной задачей, которая представлена ​​в многочисленных проблемах классификации, возникающих в различных областях применения, таких как медицинская диагностика и обнаружение вторжений, ошибок или мошенничества. В литературе утверждается, что проблему дисбаланса классов можно решить путем предварительной обработки наборов данных с помощью процедуры выбора признаков. В этой статье представлен краткий обзор существующих подходов к выбору функций с особым акцентом на обертки, основанные на алгоритмах оптимизации, вдохновленных биотехнологиями. Наиболее известные обертки, вдохновленные биотехнологиями, были экспериментально проанализированы для решения различных реальных проблем, связанных с несбалансированностью.

Обратите внимание на следующее краткое резюме:

  • В литературе предложено множество подходов к выбору признаков, которые можно разделить на четыре группы, каждая из которых имеет свои преимущества и недостатки. Однако подходы-оболочки обычно больше подходят для обработки несбалансированных наборов данных.
  • Как показывают результаты экспериментального анализа, использование биологически вдохновленных оболочек для FS в основном приводит к повышению эффективности распознавания классов меньшинств, что, в свою очередь, повышает эффективность общей классификации.
  • Кроме того, обертки значительно уменьшают размерность задач, так как скорость уменьшения для большинства наборов данных колеблется от 40 до 70%.
  • Биологические алгоритмы, такие как генетический алгоритм, дифференциальная эволюция и оптимизация роя частиц, можно считать жизнеспособным выбором для оболочки.
  • Наконец, выбор признаков с помощью биологически вдохновленных оболочек выделяется как метод предварительной обработки набора данных, который делает концепцию класса меньшинства менее сложной и улучшает ее распознавание.

Поддерживать связь

Спасибо, что прочитали мой пост! Надеюсь, вам понравилось. Пожалуйста, свяжитесь со мной через мой профиль LinkedIn, если у вас возникли проблемы с дисбалансом классов в вашем наборе данных или просто есть вопросы по вопросам, связанным с наукой о данных и машинным обучением.

Если вы хотите узнать больше о подходящих биологических обертках для выбора функций, прочитайте мою исследовательскую работу на эту тему. Вы также можете найти больше статей об обучении на несбалансированных данных в моем профиле RG.

Подпишитесь на меня в Medium, чтобы получать больше подобного контента.

Рекомендации

  1. Дж. Тан, С. Алеляни и Х. Лю. Выбор признаков для классификации: обзор. Классификация данных: алгоритмы и приложения, 37, 2014 г.
  2. А. Йович, К. Бркич и Н. Богунович. Обзор методов выбора признаков с приложениями. Материалы 38-й Международной конференции по информационным и коммуникационным технологиям (MIPRO), 12:00–12:05, 2015 г.
  3. И. Гийон и А. Елисеев. Введение в выбор переменных и признаков. Journal of Machine Learning Research, 3:1157–1182, 2003 г.
  4. Н. Санчес-Мароньо, А. Алонсо-Безансос и М. Томбилла-Санроман. Методы фильтрации для выбора признаков — сравнительное исследование. Материалы 8-й Международной конференции по интеллектуальной обработке данных и автоматизированному обучению, 178–187, 2007 г.
  5. П. Пудил, Й. Нововичова и Дж. Киттлер. Плавающие методы поиска при выборе признаков. Письма о распознавании образов, 15 (11):1119–1125, 1994.
  6. Б.Х. Чо, Х.Ю., К.-В. Ким, Т.Х. Ким, И.Ю. Ким и С. И. Ким. Применение нерегулярных и несбалансированных данных для прогнозирования диабетической нефропатии с использованием методов визуализации и выбора признаков. Искусственный интеллект в медицине, 42(1):37–53. 2008.
  7. К. Бач и М. Личман. Репозиторий машинного обучения Uci, 2013 г.
  8. Д. Байер, Б. Зорич, М. Дуджак и Г. Мартинович. Оценка и анализ биоинспирированных алгоритмов оптимизации для выбора признаков. Материалы 15-й Международной научной конференции по информатике, 285–292, 2019 г.
  9. Д. Байер, Б. Зорич, М. Дуджак и Г. Мартинович. Сравнительный анализ алгоритмов вычислений, вдохновленных биотехнологиями, в качестве оболочек для выбора функций. Acta Electrotechnica et Informatica, 20:35–43, 2020 г.