Предварительная обработка данных для нетехнических специалистов: исследование функций и разработка
Часть вторая - Контрольный список наиболее распространенных практик
Теперь, когда мы рассмотрели основные термины и определения для типов и структуры данных в моем предыдущем посте, давайте погрузимся в творческую и наиболее трудоемкую сторону науки о данных - очистку и разработку функций.
Какие основные стратегии используют специалисты по обработке данных для очистки своих данных И увеличения объема информации, которую они из них получают?
Тип используемых стратегий очистки и проектирования обычно зависит от бизнес-задачи и типа целевой переменной, поскольку это влияет на алгоритм и требования к подготовке данных.
Поэтому я предоставлю вам базовый контрольный список, который поможет любому новичку подумать, что делать с данными на этом этапе. (включая меня)
Самая важная часть очистки данных - это экспериментирование и проверка того, как применение одной или многих из этих стратегий влияет на вашу способность фактически предсказывать или классифицировать в модели.
Кроме того, несмотря на некоторую логику в порядке, имейте в виду, что эти шаги всегда выполняются в итерациях, и вы всегда будете переходить туда и обратно между:
→ Исследование, очистка, создание и выбор
Исследование данных
A. Идентификация переменных:
- Контекст целевой переменной (логическое соединение)
- Тип данных для каждой функции (символьный, числовой и т. Д.)
- Категория переменной (непрерывная, категориальная и т. Д.)
Б. Универсальный анализ:
- Центральная тенденция и спред для непрерывного
- Распределение (уровни) для категориальных
C. Двухвариантный анализ:
- Корреляция непрерывных переменных
- Двусторонняя таблица или столбцы с накоплением для категориальных
- Тест хи-квадрат для категориального
- Z-тест для категориального и непрерывного
Очистка данных
A. Удалить шум:
- Дубликаты
- Столбцы абзацев
- Ошибочные значения
- Противоречия
- Неправильные ярлыки
Б. Отсутствующие значения:
- Удалить
- Среднее / Mode / Median Imputation
- Модель прогноза
- KNN Imputation
C. Выбросы:
- Обрезать или удалить
- Натуральный журнал
- Биннинг
- Назначить веса
- Среднее / Mode / Median Imputation
- Построить прогнозную модель
- Относитесь к ним отдельно
D. Преобразование переменных:
- Логарифм
- Квадрат / кубический корень
- Биннинг / Дискретность
- Манекены
- Факторизация
- Другой тип данных
Создание функции
A. Характеристики индикатора
- Порог (например, ниже определенной цены = плохо)
- Комбинация функций (например, дом премиум-класса, если 2B, 2Bth)
- Особые мероприятия (например, Рождество или черная пятница)
- Тип события (например, платный или неоплачиваемый в зависимости от источника трафика)
Б. Особенности представления
- Извлечение домена и времени (например ,purchase_day_of_week)
- От числового до категориального (например, от количества лет в школе до "начальной")
- Группировка редких классов (например, продано, все остальные - «прочие»)
C. Функции взаимодействия
- Сумма функций
- Различие функций
- Продукт функций
- Коэффициент характеристик
- Уникальная формула
D. Конъюнктивные особенности
- Марковское одеяло
- Линейный предсказатель
E. Дизъюнктивные особенности
- Центроид
- PCA
- LDA
- СВД
- PLS
F. Программирование
- Логика (FRINGE)
- Генетический
Выбор функции
А. Методы фильтрации
- Корреляция
- Статистическая оценка
- Ранжирование (алгоритм облегчения)
Б. Методы обертки
- Вперед Шаг Мудрый
- Назад Шаг Мудрый
Б. Встроенные методы
- Риджская регрессия
- Лассо регрессия
- Деревья решений
- Эластичная сетка
- XGBoost
- SVM
- LightGBM
БОНУС
Посмотрите на моих одноклассников Kaggle, где он применил большинство из этих методов, чтобы попасть в первые 2% таблицы лидеров в конкурсе Housing Regression Challenge:
Лучшие 2% LeaderBoard - Advanced FE
Использование данных из« Цены на жилье: расширенные методы регрессии www.kaggle.com»
Если вы считаете, что это было полезно, пожалуйста, ПОДЕЛИТЬСЯ с друзьями и НАЗАД. И не стесняйтесь КОММЕНТАРИЙ ниже, если вы чувствуете, что что-то можно добавить к одной из стратегий. Мы вместе в этом познавательном путешествии!
Автор: Мелоди Энн Укрос
Магистр больших данных и бизнес-аналитики Студент @ IEBusinessSchool
Директор по операциям @ Fundie, консалтингового и инвестиционного фонда социальных предприятий.
Следуйте за мной в Medium или Свяжитесь с нами в Linkedin ❤
#bigdata #datascience #featureengineering #datacleaning
Источники и дополнительные ресурсы:
Http://www.cyberneum.de/fileadmin/user_upload/files/publications/pdf3012. (pdf )
«Http://www.jmlr.org/papers/volume3/guyon03a/guyon03a. секс(pdf)
и слайды урока по машинному обучению от Хесуса Ренеро