Выбор функций с использованием регрессии взаимной информации

Цель.Определить важные функции в наборе данных, которые действуют как предикторы для целевой переменной, в данном случае математических оценок.

Набор данных.Набор данных содержит математические оценки и множество возможных переменных-предикторов, таких как размер семьи, доступ в Интернет дома, работа отца и т. д. Всего имеется 31 переменная.

Подход. Здесь мы будем использовать немного другой подход. Вместо того, чтобы выполнять EDA для всех функций, мы будем использовать взаимную информационную регрессию, чтобы понять силу взаимосвязи между результатами тестов и функциями.

Показатель взаимной информации.Взаимная информация очень похожа на корреляцию, она измеряет силу взаимосвязи между двумя переменными. Ключевое отличие состоит в том, что если корреляция измеряет только силу линейной связи между двумя переменными, то взаимная информация измеряет силу любой связи между двумя переменными (включая сильную нелинейную связь, которую корреляция не заметит). Это положительное число с более высокими значениями, указывающими на более сильную связь. Значения выше 2 встречаются очень редко. Если целевая переменная непрерывна, используется регрессия взаимной информации, а если она дискретна, используется классификация взаимной информации.

Шаг 1. Загрузите данные и выбор объектов

Мы импортируем необходимые библиотеки и изучаем набор данных.

Мы делаем следующее в шагах ниже:

  • Загрузите данные и проверьте набор данных.
  • Кодировать все объекты (строковые столбцы) в целые числа

Шаг 2. Запустите регрессию взаимной информации

Теперь, когда наш набор данных настроен, мы запускаем взаимную информационную регрессию.

  1. Мы разделяем набор данных на 2 массива, X — это массив функций, а y — массив результатов математического теста, представленный столбцом G3.
  2. Мы находим дискретные столбцы (введите int в массиве признаков X). Функция mutual_info_regression() нуждается в этом в качестве входных данных.
  3. Запустите взаимную информационную регрессию и визуализируйте результаты

  • Взаимная информационная оценка быстро снижается после 1-го наиболее важного признака. В этом случае любые прошлые неудачи в тесте по математике.
  • Похоже, что большинство функций, не входящих в первую десятку, имеют очень низкие показатели взаимной информации.
  • Мы уже перешли от набора данных с 31 возможной функцией к 10 наиболее важным функциям.


Предложения по подаче заявок на Mlearning.ai
Как стать писателем на Mlearning.aimedium.com