Публикации по теме 'feature-selection'


Изучение промышленного индекса Доу-Джонса с использованием линейной регрессии
Изучение промышленного индекса Доу-Джонса с использованием линейной регрессии Простой пример выбора функций и дрейфа модели Промышленный индекс Доу-Джонса (DJIA) был впервые представлен Чарльзом Доу в 1896 году и с тех пор стал одним из основных ориентиров для показателей фондового рынка на Нью-Йоркской фондовой бирже . В этом посте мы будем использовать его, чтобы лучше понять плюсы и минусы простых моделей линейной регрессии, предположения, на которые они опираются, и то, как..

Учебное пособие по машинному обучению - разработка и выбор функций для начинающих
Они говорят, что данные - это новое масло , но мы не используем масло напрямую из его источника. Их необходимо обработать и очистить, прежде чем мы будем использовать их для других целей. То же самое относится и к данным, мы не используем их напрямую из источника. Его тоже нужно обработать. Это может быть проблемой для новичков в машинном обучении и науке о данных, потому что данные поступают из разных источников с разными типами данных. Поэтому нельзя применять один и тот же..

Оптимизация выбора признаков с помощью генетических алгоритмов  — простой в использовании скрипт Python!
Оптимизация выбора признаков с помощью генетических алгоритмов — простой в использовании скрипт Python Введение В Just Eat Takeaway.com улучшение наших моделей, основанных на данных, является частью нашей ДНК. Рекомендательные системы являются важной частью нашей связи с нашими пользователями. Чтобы сделать возможной лучшую рекомендацию ресторана, был определен длинный список функций, которые используются для предоставления предложений через горизонтальную карусель. Эти функции..

UCI Adult Income — Очистка данных, выбор признаков, моделирование и интерпретация
1. Набор данных: Набор данных содержит 32 561 запись с 15 столбцами, представляющими различные атрибуты людей. Вот список — Возраст: Дискретный (от 17 до 90) Рабочий класс (частный, федеральный и т. д.): Номинальный (9 категорий) Окончательный вес (количество людей, которое, по мнению переписи, представляет запись): Дискретный Образование (высший уровень полученного образования): Порядковое (16 разрядов) Education Number (количество лет обучения): Дискретный (от 1 до 16)..

Повышение производительности и интерпретируемости модели
Выбор признаков — это важный шаг в науке о данных, который включает в себя выбор наиболее релевантных признаков из набора данных для повышения производительности модели и ее интерпретируемости . Выбор признаков необходим, поскольку наборы данных часто содержат множество признаков, некоторые из которых могут быть нерелевантными, избыточными или зашумленными. Тщательно выбирая соответствующие функции, мы можем: Уменьшить переобучение: удаляя нерелевантные или избыточные функции, мы можем..

Как использовать регуляризацию лассо для ранжирования независимых переменных по важности
Как использовать регуляризацию лассо для определения наиболее важных независимых переменных Одна из основных проблем построения модели линейной регрессии - выбор независимых переменных. При работе с большими наборами данных может быть легко получить огромное количество независимых переменных после очистки данных и создания фиктивных переменных. Один из способов построения регрессионной модели - начать с простого - выбрать только несколько независимых переменных и выполнить итерацию,..

Анализ функций для выбора функций в машинном обучении и науке о данных
Когда предоставляются произвольные данные для использования в модели машинного обучения, важно определить, что они представляют, чтобы можно было соответствующим образом выбирать, обрабатывать и очищать функции. Здесь предполагается, что в данных есть столбцы, которые являются «характеристиками», и никакая информация о типе данных и их представлении не известна; будь то таблица цен на товары, информация о пользователях, температура в разное время и т. д. На этом этапе некоторые..