Предварительная обработка данных для нетехнических специалистов: исследование функций и разработка

Часть вторая - Контрольный список наиболее распространенных практик

Теперь, когда мы рассмотрели основные термины и определения для типов и структуры данных в моем предыдущем посте, давайте погрузимся в творческую и наиболее трудоемкую сторону науки о данных - очистку и разработку функций.

Какие основные стратегии используют специалисты по обработке данных для очистки своих данных И увеличения объема информации, которую они из них получают?

Тип используемых стратегий очистки и проектирования обычно зависит от бизнес-задачи и типа целевой переменной, поскольку это влияет на алгоритм и требования к подготовке данных.

Поэтому я предоставлю вам базовый контрольный список, который поможет любому новичку подумать, что делать с данными на этом этапе. (включая меня)

Самая важная часть очистки данных - это экспериментирование и проверка того, как применение одной или многих из этих стратегий влияет на вашу способность фактически предсказывать или классифицировать в модели.

Кроме того, несмотря на некоторую логику в порядке, имейте в виду, что эти шаги всегда выполняются в итерациях, и вы всегда будете переходить туда и обратно между:

→ Исследование, очистка, создание и выбор

Исследование данных

A. Идентификация переменных:

  1. Контекст целевой переменной (логическое соединение)
  2. Тип данных для каждой функции (символьный, числовой и т. Д.)
  3. Категория переменной (непрерывная, категориальная и т. Д.)

Б. Универсальный анализ:

  1. Центральная тенденция и спред для непрерывного
  2. Распределение (уровни) для категориальных

C. Двухвариантный анализ:

  1. Корреляция непрерывных переменных
  2. Двусторонняя таблица или столбцы с накоплением для категориальных
  3. Тест хи-квадрат для категориального
  4. Z-тест для категориального и непрерывного

Очистка данных

A. Удалить шум:

  1. Дубликаты
  2. Столбцы абзацев
  3. Ошибочные значения
  4. Противоречия
  5. Неправильные ярлыки

Б. Отсутствующие значения:

  1. Удалить
  2. Среднее / Mode / Median Imputation
  3. Модель прогноза
  4. KNN Imputation

C. Выбросы:

  1. Обрезать или удалить
  2. Натуральный журнал
  3. Биннинг
  4. Назначить веса
  5. Среднее / Mode / Median Imputation
  6. Построить прогнозную модель
  7. Относитесь к ним отдельно

D. Преобразование переменных:

  1. Логарифм
  2. Квадрат / кубический корень
  3. Биннинг / Дискретность
  4. Манекены
  5. Факторизация
  6. Другой тип данных

Создание функции

A. Характеристики индикатора

  1. Порог (например, ниже определенной цены = плохо)
  2. Комбинация функций (например, дом премиум-класса, если 2B, 2Bth)
  3. Особые мероприятия (например, Рождество или черная пятница)
  4. Тип события (например, платный или неоплачиваемый в зависимости от источника трафика)

Б. Особенности представления

  1. Извлечение домена и времени (например ,purchase_day_of_week)
  2. От числового до категориального (например, от количества лет в школе до "начальной")
  3. Группировка редких классов (например, продано, все остальные - «прочие»)

C. Функции взаимодействия

  1. Сумма функций
  2. Различие функций
  3. Продукт функций
  4. Коэффициент характеристик
  5. Уникальная формула

D. Конъюнктивные особенности

  1. Марковское одеяло
  2. Линейный предсказатель

E. Дизъюнктивные особенности

  1. Центроид
  2. PCA
  3. LDA
  4. СВД
  5. PLS

F. Программирование

  1. Логика (FRINGE)
  2. Генетический

Выбор функции

А. Методы фильтрации

  1. Корреляция
  2. Статистическая оценка
  3. Ранжирование (алгоритм облегчения)

Б. Методы обертки

  1. Вперед Шаг Мудрый
  2. Назад Шаг Мудрый

Б. Встроенные методы

  1. Риджская регрессия
  2. Лассо регрессия
  3. Деревья решений
  4. Эластичная сетка
  5. XGBoost
  6. SVM
  7. LightGBM

БОНУС

Посмотрите на моих одноклассников Kaggle, где он применил большинство из этих методов, чтобы попасть в первые 2% таблицы лидеров в конкурсе Housing Regression Challenge:



Если вы считаете, что это было полезно, пожалуйста, ПОДЕЛИТЬСЯ с друзьями и НАЗАД. И не стесняйтесь КОММЕНТАРИЙ ниже, если вы чувствуете, что что-то можно добавить к одной из стратегий. Мы вместе в этом познавательном путешествии!

Автор: Мелоди Энн Укрос

Магистр больших данных и бизнес-аналитики Студент @ IEBusinessSchool

Директор по операциям @ Fundie, консалтингового и инвестиционного фонда социальных предприятий.

Следуйте за мной в Medium или Свяжитесь с нами в Linkedin

#bigdata #datascience #featureengineering #datacleaning

Источники и дополнительные ресурсы:







Http://www.cyberneum.de/fileadmin/user_upload/files/publications/pdf3012. (pdf )

«Http://www.jmlr.org/papers/volume3/guyon03a/guyon03a. секс(pdf)

и слайды урока по машинному обучению от Хесуса Ренеро