Как мы установили ранее, прогнозирование путем создания моделей на основе данных является отличным инструментом для искусственного интеллекта, поскольку оно позволяет агенту определять ответ на основе предыдущего «опыта» в соответствии с заранее определенной моделью. Тем не менее, при анализе данных путем создания различных моделей прогнозирования очень сложно найти наилучшее сочетание характеристик таких данных для создания наилучшей модели с точки зрения ошибки и значения r в квадрате. Поиск наиболее влиятельной функции довольно прост при использовании методов предварительной обработки, таких как тепловые карты, которые позволяют нам визуализировать уровень влияния каждой функции, но чтобы найти наилучшую комбинацию с наименьшим количеством функций, мы должны использовать другие инструменты или установить другие алгоритмы, которые могут работать. через все возможные модели, а затем оценить их и определить наиболее эффективные с точки зрения используемых ресурсов и точности прогноза. Основным инструментом, который я хочу упомянуть в этой статье для достижения этой цели, является функция устранения рекурсивных признаков, установленная в SciKitLearn. Функция RFE выбирает признаки, рекурсивно рассматривая все более мелкие наборы признаков на основе оценщика, который присваивает признакам «веса» (на основе их влияния на рассматриваемую переменную). Оценщик обучается на начальном наборе, и после получения важности каждого признака наименее важные признаки «исключаются» из текущего набора признаков. Это рекурсивно повторяется до тех пор, пока не будет достигнуто желаемое количество признаков. С помощью этого инструмента мы можем не только найти максимальное значение точности для определенного типа модели (линейная регрессия, полиномиальная регрессия, лассо-регрессия и т. д.), но также мы можем наблюдать, какие минимальные основные функции или комбинации функций, которые может достичь этого значения, например, после получения одного и того же значения для r в квадрате в нескольких последовательных последовательностях мы можем предположить или предсказать, что те ранее выбранные функции представляют собой основные влияющие функции, которые должны быть включены в модель. Благодаря этому очень полезному инструменту мы можем создать модель с наименьшим количеством функций для максимального уровня точности, что позволяет нам более эффективно сравнивать модели после определения основных функций, которые будут влиять на модель.