Предварительная обработка данных для нетехнических специалистов: исследование функций и разработка

Часть вторая - Контрольный список наиболее распространенных практик

Теперь, когда мы рассмотрели основные термины и определения для типов и структуры данных в моем предыдущем посте, давайте погрузимся в творческую и наиболее трудоемкую сторону науки о данных - очистку и разработку функций.

Какие основные стратегии используют специалисты по обработке данных для очистки своих данных И увеличения объема информации, которую они из них получают?

Тип используемых стратегий очистки и проектирования обычно зависит от бизнес-задачи и типа целевой переменной, поскольку это влияет на алгоритм и требования к подготовке данных.

Поэтому я предоставлю вам базовый контрольный список, который поможет любому новичку подумать, что делать с данными на этом этапе. (включая меня)

Самая важная часть очистки данных - это экспериментирование и проверка того, как применение одной или многих из этих стратегий влияет на вашу способность фактически предсказывать или классифицировать в модели.

Кроме того, несмотря на некоторую логику в порядке, имейте в виду, что эти шаги всегда выполняются в итерациях, и вы всегда будете переходить туда и обратно между:

→ Исследование, очистка, создание и выбор

Исследование данных

A. Идентификация переменных:

Контекст целевой переменной (логическое соединение)
Тип данных для каждой функции (символьный, числовой и т. Д.)
Категория переменной (непрерывная, категориальная и т. Д.)

Б. Универсальный анализ:

Центральная тенденция и спред для непрерывного
Распределение (уровни) для категориальных

C. Двухвариантный анализ:

Корреляция непрерывных переменных
Двусторонняя таблица или столбцы с накоплением для категориальных
Тест хи-квадрат для категориального
Z-тест для категориального и непрерывного

Очистка данных

A. Удалить шум:

Дубликаты
Столбцы абзацев
Ошибочные значения
Противоречия
Неправильные ярлыки

Б. Отсутствующие значения:

Удалить
Среднее / Mode / Median Imputation
Модель прогноза
KNN Imputation

C. Выбросы:

Обрезать или удалить
Натуральный журнал
Биннинг
Назначить веса
Среднее / Mode / Median Imputation
Построить прогнозную модель
Относитесь к ним отдельно

D. Преобразование переменных:

Логарифм
Квадрат / кубический корень
Биннинг / Дискретность
Манекены
Факторизация
Другой тип данных

Создание функции

A. Характеристики индикатора

Порог (например, ниже определенной цены = плохо)
Комбинация функций (например, дом премиум-класса, если 2B, 2Bth)
Особые мероприятия (например, Рождество или черная пятница)
Тип события (например, платный или неоплачиваемый в зависимости от источника трафика)

Б. Особенности представления

Извлечение домена и времени (например ,purchase_day_of_week)
От числового до категориального (например, от количества лет в школе до "начальной")
Группировка редких классов (например, продано, все остальные - «прочие»)

C. Функции взаимодействия

Сумма функций
Различие функций
Продукт функций
Коэффициент характеристик
Уникальная формула

D. Конъюнктивные особенности

Марковское одеяло
Линейный предсказатель

E. Дизъюнктивные особенности

Центроид
PCA
LDA
СВД
PLS

F. Программирование

Логика (FRINGE)
Генетический

Выбор функции

А. Методы фильтрации

Корреляция
Статистическая оценка
Ранжирование (алгоритм облегчения)

Б. Методы обертки

Вперед Шаг Мудрый
Назад Шаг Мудрый

Б. Встроенные методы

Риджская регрессия
Лассо регрессия
Деревья решений
Эластичная сетка
XGBoost
SVM
LightGBM

БОНУС

Посмотрите на моих одноклассников Kaggle, где он применил большинство из этих методов, чтобы попасть в первые 2% таблицы лидеров в конкурсе Housing Regression Challenge:

Лучшие 2% LeaderBoard - Advanced FE
Использование данных из« Цены на жилье: расширенные методы регрессии www.kaggle.com»

Если вы считаете, что это было полезно, пожалуйста, ПОДЕЛИТЬСЯ с друзьями и НАЗАД. И не стесняйтесь КОММЕНТАРИЙ ниже, если вы чувствуете, что что-то можно добавить к одной из стратегий. Мы вместе в этом познавательном путешествии!

Автор: Мелоди Энн Укрос

Магистр больших данных и бизнес-аналитики Студент @ IEBusinessSchool

Директор по операциям @ Fundie, консалтингового и инвестиционного фонда социальных предприятий.

Следуйте за мной в Medium или Свяжитесь с нами в Linkedin ❤

#bigdata #datascience #featureengineering #datacleaning

Источники и дополнительные ресурсы:

Полное руководство по исследованию данных
Введение Нет ярлыков для исследования данных. Если вы настроены на то, что машинное обучение может плавать… www.analyticsvidhya.com

Шумные данные в интеллектуальном анализе данных | Мягкие вычисления и интеллектуальные информационные системы
Шум мешает извлечению знаний из данных и портит модели, полученные с использованием этих зашумленных данных, когда они… sci2s.ugr.es

Http://www.cyberneum.de/fileadmin/user_upload/files/publications/pdf3012. (pdf )

«Http://www.jmlr.org/papers/volume3/guyon03a/guyon03a. секс(pdf)

и слайды урока по машинному обучению от Хесуса Ренеро

Предварительная обработка данных для нетехнических специалистов: исследование функций и разработка