Краткий анализ данных очистки перед их передачей в алгоритмы машинного обучения

Многие люди часто называют предварительную обработку данных наиболее важной частью алгоритма машинного обучения. Часто говорят, что алгоритмы машинного обучения станут широко открытыми, если вы не очистите свои данные и не обработаете их. Но задумывались ли вы когда-нибудь о том, что такое нечистые данные, как отличить чистые данные от нечистых и каковы различные аспекты чистых данных, после чего мы можем строить на них наши модели?

Что ж, вот небольшое введение в основные проблемы, существующие в машинном обучении. Как говорит Орелиен Джерон в своей книге Практическое машинное обучение, в данных могут существовать проблемы двух типов: плохой алгоритм и плохие данные.

Недостаточно данных

Действительно, часто рекомендуется, чтобы репозиторий данных, который используется для построения моделей машинного обучения, содержал данные, которые используются в огромных количествах. Хотя в целом это правда, но простую модель машинного обучения можно построить всего на нескольких сотнях записей. Однако более сложные системы требуют больших наборов данных, а модели, такие как Image Recognition, могут даже нуждаться в записях в миллионах записей.
Настоящая проблема с недостаточными данными заключается в том, что при меньшем количестве данных дисперсия увеличивается. Дисперсия, которую можно легко определить как изменчивость прогноза модели для данной точки данных или значения, которое сообщает нам, как распространяются данные. Высокая вариабельность моделей означает, что модель идеально подходит для обучающих данных, но перестанет работать, как только в нее будут введены новые данные.

Нерепрезентативные данные обучения

Чтобы хорошо обобщить модель, очень важно, чтобы обучающие данные точно представляли совокупность. Другими словами, каждый раз, когда из генеральной совокупности создается новая выборка, очень важно, чтобы эта выборка точно отражала совокупность. Обучающий набор данных должен быть репрезентативным для случаев, на которые вы хотите сделать обобщение. Однако это сложнее, чем кажется. Если выборка слишком мала, у вас будет шум выборки, который является нерепрезентативными данными в результате случайности, но даже большие выборки могут быть нерепрезентативными, если метод выборки ошибочен. Это называется S смещением усиления.
Здесь важно отметить, что если необходимо уменьшить смещение выборки, дисперсия возрастает, а если дисперсию нужно уменьшить, смещение увеличивается. Это явление, также известное как компромисс смещения-дисперсии, представляет собой процесс поиска оптимальной точки, которая удерживает как дисперсию, так и смещение в наборе данных на низком уровне.

Есть еще две концепции, которые не менее важны при работе с предвзятостью, а именно:

  • Выборки могут иметь тенденцию отдавать предпочтение отобранной части населения и, таким образом, могут не точно отражать истинное население. Это также широко известно как наличие асимметрии в данных, и данные могут быть наклонены вправо или влево.
  • Во-вторых, также может быть случай (особенно в опросах), когда достаточное количество людей не ответят на вопросы и не будут представлены в данных. Это также называется наличием систематической ошибки отсутствия ответов в данных.

Данные низкого качества

Как правило, должно быть очевидно, что модель не сможет работать хорошо, если данные, которые в нее вводятся, уже загрязнены. Грязные данные - это данные, которые обычно содержат ошибки, выбросы и шум. Данные также могут быть грязными, если в них отсутствуют наблюдения.

  • Чтобы иметь дело с выбросами, было бы лучше, если бы мы могли либо отбросить эти наблюдения, что уменьшит размер набора данных, либо мы можем победить их. Винзоризированные наблюдения - это те, которые изначально были выбросами, но к ним было передано дополнительное условие, чтобы ограничить их определенной границей.
  • Пробелы в наборе данных могут быть в виде отсутствующих или несуществующих значений. Несуществующие значения обычно более распространены в опросах, где некоторые конкретные вопросы остались без ответа, и у нас нет данных для них, в то время как отсутствующие значения больше присутствуют в общей шкале, где значения существуют для данных, но не были записаны и, следовательно, могут лечиться без использования специальных методов Стандартизации.

Нерелевантные функции

Мой программный директор в Университете штата Оклахома, доктор Гутам Чакраборти, всегда говорил, что машинное обучение во многом зависит от GIGO (Garbage In, Garbage Out). Это означает, что если вы предоставите неверные данные с большим количеством функций, большим количеством шума в модели, это в конечном итоге вернет вам мусор. Важным аспектом алгоритмов машинного обучения является аспект Feature Engineering. Это включает в себя:

  • Выбор функций: выбор наиболее полезных функций для обучения среди существующих. Это можно сделать с помощью таких методов, как регрессия лассо.
  • Извлечение функций: объединение существующих функций для создания новой, более полезной функции, которая может иметь большее значение в модели.
  • Создание новых функций путем сбора новых данных

Переоснащение данных

Как показано на изображении выше, переоснащение данных - это попытка идеально подогнать модель под данные обучения. Часто это делается путем принудительной подгонки, и это слишком хорошо, чтобы быть правдой. Его также в народе называют золотом дурака. Это связано с тем, что всякий раз, когда такая модель видит новые данные, она будет давать невероятно низкие характеристики. Возможные решения такой проблемы:

  • Регуляризация: это процесс, с помощью которого модели можно упростить, выбрав модель с меньшим количеством параметров, уменьшив количество атрибутов в обучающих данных или ограничив модель. Степень регуляризации, применяемой во время обучения, можно контролировать с помощью гиперпараметра.
  • Сбор дополнительных обучающих данных
  • Уменьшите шум в обучающих данных

Недостаток данных

Недостаточная подгонка - это противоположность переобучения: она возникает, когда модель слишком проста для изучения базовой структуры данных. Это часто приводит к большой необъяснимой дисперсии, поскольку модель не может объяснить дисперсию. Решениями этой проблемы могут быть:

  • Выбор лучшей (более мощной) модели с большим количеством параметров
  • Добавление лучших функций в алгоритм обучения (разработка функций)
  • Снижение ограничений модели (уменьшение применяемых регуляризаций или уменьшение гиперпараметров)

Таким образом, вышеупомянутые проблемы могут присутствовать в данных, которые могут сделать их существование проблематичным, и для эффективной работы моделей машинного обучения эти проблемы должны быть устранены. Чтобы посмотреть, как можно устранить эти проблемы, следует использовать и следовать руководству здесь: