Меня всегда просили провести некоторый анализ данных, но перед тем, как проводить какой-либо анализ, меня беспокоило то, что данные, которые у меня были, были ли они релевантными или нет. Содержали ли они какие-либо ошибки, ошибка означает любые выбросы, экстремальные значения или отсутствующие значения . Поэтому, прежде чем проводить какой-либо анализ, я хотел быть уверенным, что данные, которые у меня есть, не содержат ошибок или уместны, чтобы сделать правильную или значимую интерпретацию.

Зачем нужна предварительная обработка данных?

Большая часть необработанных данных, содержащихся в базах данных, является необработанной, неполной и зашумленной. Например, базы данных могут содержать:

(i) Поля, которые устарели или избыточны

(ii) Отсутствующие значения

(iii) Выбросы

(iv) Данные в форме, не подходящей для моделей интеллектуального анализа данных

(v) ценности, несовместимые с политикой или здравым смыслом

Чтобы быть полезными для целей интеллектуального анализа данных, базы данных должны пройти предварительную обработку в форме очистки и преобразования данных. Интеллектуальный анализ данных часто имеет дело с данными, которые не просматривались годами, поэтому большая часть данных содержит поля значения, срок действия которых истек, утратили актуальность или просто отсутствуют.

Основная цель состоит в том, чтобы минимизировать количество мусора на входе и выходе (GIGO), чтобы минимизировать мусор, который попадает в нашу модель, чтобы мы могли минимизировать количество мусора, который выдают наши модели.

В зависимости от набора данных одна только предварительная обработка данных может составлять 10–60% всего времени и усилий для всего процесса интеллектуального анализа данных.

ОЧИСТКА ДАННЫХ: - -

Чтобы проиллюстрировать необходимость очистки данных, давайте рассмотрим некоторые виды ошибок, которые могут закрасться даже в крошечный набор данных.

Давайте обсудим, атрибут за атрибутом, некоторые проблемы, которые нашли свое отражение в наборе данных. Переменная идентификатора клиента, похоже, в порядке. как насчет Zip?

Проблема, связанная с переменной «Почтовый индекс» - - - -

Предположим, что мы ожидаем, что все покупатели, участвующие в обсуждении, будут иметь обычный пятизначный американский почтовый индекс. Теперь у покупателя 1002 странный почтовый индекс J2S7k7. Если бы мы не проявили осторожность, у нас могло бы возникнуть соблазн классифицировать его. необычное значение как ошибку и отбрасываем его, пока мы не перестанем думать, что не все страны используют один и тот же формат почтового индекса. На самом деле, это почтовый индекс Канады и, вероятно, представляет собой реальные данные от реального клиента. Что, очевидно, произошло. заключается в том, что канадский клиент совершил покупку и ввел свой домашний почтовый индекс в обязательное поле. В эпоху свободной торговли мы должны быть готовы ожидать необычных значений в таких полях, как почтовый индекс, которые различаются от страны к стране.

как насчет почтового индекса для клиента 1004?

нам неизвестны страны, у которых есть четырехзначные почтовые индексы, такие как 6269, указывает здесь, так что это должно быть ошибкой, верно? Вероятно, нет. Почтовые индексы для штатов Новой Англии начинаются с цифры 0. Если поле почтового индекса не определено как символьное (текстовое), а не числовое, программное обеспечение, скорее всего, отрежет начальный ноль, что, по-видимому, и произошло здесь. .Почтовый индекс может быть 06269, что относится к Новой Англии.

Проблемы, связанные с переменной «Пол» - - - - -

Следующее поле, пол, содержит недостающее значение для клиента 1003.

Проблема, связанная с переменной «Доход» - - - - -

Поля дохода имеют три потенциально аномальных значения. Во-первых, клиент 1003 имеет доход 10 000 000 в год, что является не чем иным, как выбросом, экстремальным значением данных. Некоторые методы статистического моделирования и моделирования интеллектуального анализа данных не работают плавно при наличии выброса, поэтому мы рассмотрим методы обработки выбросов позже. Бедность - это одно, но редко можно найти отрицательный доход, как у нашего бедного клиента 1002. В отличие от дохода клиента 1003, полученный клиентом 1002 доход в размере -40 000 лежит за пределами нормы. границы поля для дохода и, следовательно, должны быть ошибкой. Однако мы не можем быть уверены, и, следовательно, должны осторожно подходить к этому значению и пытаться связаться с менеджером базы данных, наиболее знакомым с историей базы данных.

Так что же не так с доходом клиента 1005 в размере 99 999? Возможно, ничего, это действительно может быть действительным. Но, если все остальные доходы округлены до ближайших 5000, почему точность с доходом клиента 1005? указанные значения предназначены для кодирования аномальных записей, таких как отсутствующие значения. Возможно, 99 999 было закодировано в старой базе данных, что означает отсутствие. И снова мы не можем быть уверены и должны снова обратиться к администратору базы данных.

И, наконец, ясно ли нам, в какой единице измерения измеряется переменная дохода? Базы данных часто объединяются, иногда не беспокоясь о том, чтобы проверить, подходят ли такие объединения для всех полей. Например, вполне возможно, что клиент 1002 с с почтовым индексом Канады доход измеряется в канадских долларах, а не в долларах США.

Проблема, связанная с переменной «Возраст» - - - -

Поле возраста имеет несколько проблем. Хотя у всех других клиентов есть числовые значения возраста, возраст C клиента 1001, вероятно, отражает более раннюю категоризацию возраста этого человека в ячейке с меткой C. значение в числовом поле, и нам придется как-то решить эту проблему. Как насчет возраста клиента 1004, равного 0? Возможно, в Новой Англии есть новорожденный мужчина, который совершил транзакцию на 1000 человек. этого человека отсутствует и был закодирован как 0, чтобы указать на это или другое аномальное состояние (например, отказ предоставить информацию о возрасте)

Конечно, сохранение поля возраста в базе данных само по себе является минным полем, поскольку с течением времени значения поля быстро устареют и вводят в заблуждение. Лучше сохранить поля типа даты (например, дату рождения) в базе данных, так как они являются константами и при необходимости могут быть преобразованы в возраст.

Проблема, связанная с переменной «Семейное положение» - - - -

Семейное положение кажется нормальным, не так ли? Может быть, и нет. Проблема заключается в значении этих символов. Мы все думаем, что знаем, что означают эти символы, но иногда удивляемся. Буква S для клиентов означает одиночный или отдельный?

Проблема с переменной «Транзакция» - - - -

Поле суммы транзакции кажется удовлетворительным, если мы уверены, что знаем, какая единица измерения используется, и что все записи совершаются в этой единице.

«ОБРАБОТКА ОТСУТСТВУЮЩИХ ДАННЫХ» - - - -

Отсутствие данных - проблема, которая продолжает мешать методам анализа данных. Даже по мере того, как наш метод анализа становится все сложнее, мы, тем не менее, продолжаем сталкиваться с отсутствующими значениями в полях, особенно в базах данных с большим количеством полей. Отсутствие информации редко бывает полезным. При прочих равных условиях больше информации почти всегда лучше. Поэтому нам следует тщательно подумать о том, как мы справляемся с трудной проблемой отсутствия данных.

Распространенный метод «обработки» пропущенных значений - просто исключить записи или поля с пропущенными значениями из анализа. Однако это может быть опасно, поскольку структура пропущенных значений на самом деле может быть систематической и простым удалением записей с пропущенными значениями. может привести к смещению подмножества данных. Более того, опускание информации во всех других полях просто из-за отсутствия одного значения поля кажется пустой тратой. Следовательно,

аналитики данных обратились к методам, которые заменяли бы отсутствующие значения значением, подставляемым в соответствии с различными критериями.

(i) Замените отсутствующее значение некоторой константой, указанной аналитиком.

(ii) Замените отсутствующее значение средним значением поля (для числовой переменной) или

режим (для категориальной переменной)

(iii) Заменить отсутствующие значения значением, полученным случайным образом из наблюдаемого распределения переменной

(iv) Замените отсутствующие значения условными значениями на основе других характеристик записи.

Пример : - - -

Чтобы помочь нам решить эту проблему, мы познакомимся с новым набором данных, набором данных об автомобилях. Предположим, что некоторые значения полей отсутствовали для определенных записей.

Результат замены пропущенных значений константой 0 для числовых значений в кубических дюймах и отсутствующей метки для категориальной переменной brand.

Переменная brand является категориальной с режимом US, поэтому программное обеспечение заменяет отсутствующее значение на brand = US. Кубицинды, является непрерывным (числовым), так что программное обеспечение заменяет отсутствующие значения кубических дюймов на кубические дюймы = 200,65, что является средним из всех. не пропущенные значения этой переменной.

Выбор среднего значения поля в качестве замены любого значения, которое там могло бы быть, иногда может сработать, однако конечный пользователь должен быть проинформирован о том, что этот процесс имел место.

Кроме того, среднее значение не всегда может быть наилучшим для того, что составляет типичное значение. Если многие пропущенные значения заменены средним, результирующие уровни достоверности для статистического вывода будут чрезмерно оптимистичными, поскольку мера разброса будет искусственно уменьшена. подчеркнули, что замена пропущенных значений - это игра, и преимущества необходимо сопоставлять с возможной недействительностью результатов.

Одним из преимуществ этого метода является то, что меры центра и разброса должны оставаться ближе к исходным по сравнению с методом замены среднего. Однако нет гарантии, что результирующие записи будут иметь смысл. Например, в базе данных нет автомобиля японского производства с объемом двигателя 400 кубических дюймов.

поэтому нам нужны методы вменения данных, которые используют знание того, что автомобиль является японским, при вычислении недостающих кубических дюймов. При вменении данных мы спрашиваем, «какое значение будет наиболее вероятным для этого отсутствующего значения с учетом всех других атрибутов для конкретный рекорд «? Например, американский автомобиль объемом 300 кубических дюймов и мощностью 150 лошадиных сил, вероятно, будет иметь больше цилиндров, чем японский автомобиль объемом 100 кубических дюймов и мощностью 90 лошадиных сил. Это называется вменением недостающих данных. .

«ВЫЯВЛЕНИЕ ОТСУТСТВИЯ КЛАССИФИКАЦИИ»: - -

Давайте посмотрим на пример проверки классификационных меток на категориальных переменных, чтобы убедиться, что все они действительны и непротиворечивы.

Предположим, что частотное распределение переменной марки состоит из пяти классов, таких как США, США, Франция, Европа и Япония. Однако два класса, США и Франция, имеют только по одному автомобилю. две записи были непоследовательно классифицированы в отношении происхождения производства. Для обеспечения согласованности с остальной частью набора данных, запись с происхождением США должна быть помечена как США, а запись с происхождением Франция должна быть помечена как Европа.

«ГРАФИЧЕСКИЕ МЕТОДЫ ИДЕНТИФИКАЦИИ ПРОИЗВОДИТЕЛЕЙ»: - -

Выбросы - это экстремальные значения, которые идут вразрез с трендом остальных данных. Выбросы важны, потому что они могут представлять ошибки при вводе данных.

Кроме того, даже если выброс - это действительные данные, а не ошибка, некоторые статистические методы чувствительны к наличию выбросов и могут давать ненадежные результаты.

Один из графических методов определения выбросов для числовых переменных - это изучить гистограмму переменной.

иногда двухмерные диаграммы рассеяния могут помочь выявить выбросы более чем по одной переменной.

«ИЗМЕРЕНИЕ ЦЕНТРА И РАСПРОСТРАНЕНИЯ»: - - -

Предположим, что нас интересует оценка того, где находится центр конкретного объекта, измеренного одной из числовых мер центра, наиболее распространенными из которых являются среднее значение, медиана и режим. Мера центра - это частный случай меры местоположения, числовые сводки, которые указывают, где на числовой прямой находится определенная характеристика переменной. Примерами мер местоположения являются процентили и квантили.

Среднее значение переменной - это просто среднее значение допустимых значений переменной. Чтобы найти среднее, просто сложите все значения полей, разделенные на размер выборки.

Для переменных, которые не сильно искажены, среднее значение обычно находится не слишком далеко от центра переменной. Однако для чрезвычайно искаженных наборов данных среднее значение становится менее репрезентативным для центра переменной. Кроме того, среднее значение чувствительно к наличию выбросов. По этой причине аналитики иногда предпочитают работать с альтернативными мерами центра, такими как медиана, определяемая как значение поля в середине, когда значения поля сортируются в порядке возрастания. Медиана устойчива к наличию выбросов. Другие аналитики могут предпочесть использовать режим, который представляет значение поля, встречающееся с наибольшей частотой. Режим может использоваться либо с числовыми, либо с категориальными данными, но не всегда связан с центром переменной.

Обратите внимание, что измерения центра не всегда совпадают с тем, где находится центр набора данных.

Например :

Здесь медиана равна 1, что означает, что половина клиентов сделала хотя бы один сервисный вызов, а режим равен 1, что означает, что наиболее частое количество обращений в службу поддержки было 1. Медиана и режим совпадают. Однако среднее значение составляет 1,563, что составляет 56,3 % выше, чем у других показателей. Это связано с чувствительностью среднего к правильной асимметрии данных.

Измерения местоположения недостаточно для эффективного суммирования переменной. Фактически, две переменные могут иметь одинаковые значения для среднего, медианы и моды, но при этом иметь разную природу. Например, предположим, что портфель акций A и B содержит пять акций. каждый с соотношением цена / прибыль (P / E), как показано в таблице.

Портфель A включает одну акцию с очень низким коэффициентом P / E, а другую - с довольно большим коэффициентом P / E. Однако, несмотря на эти различия, средние, медианные и модовые коэффициенты P / E для портфелей совершенно одинаковы.

Ясно, что эти центральные показатели не дают нам полной картины. Что отсутствует, так это меры разброса или показатели изменчивости, которые описывают, насколько разбросаны значения данных. Соотношение P / E портфеля A более разбросано. чем у портфеля B, поэтому показатели изменчивости для портфеля A должны быть больше, чем у портфеля B.

Типичные меры изменчивости включают диапазон (максимум-минимум), стандартное отклонение (SD), среднее абсолютное отклонение и межквартильный размах (IQR). SD выборки, возможно, является наиболее распространенным показателем изменчивости и определяется следующим образом:

Из-за возведения в квадрат стандартное отклонение чувствительно к наличию выбросов, что побуждает аналитиков отдавать предпочтение другим мерам разброса, таким как среднее абсолютное отклонение, в ситуациях, связанных с экстремальными значениями.

SD можно интерпретировать как «типичное» расстояние между значением поля и средним значением, и большинство значений поля находится в пределах двух SD от среднего.

ТРАНСФОРМАЦИЯ ДАННЫХ: - -

Переменные, как правило, имеют диапазоны, которые сильно различаются друг от друга. Например, если нас интересует бейсбол высшей лиги, средние показатели игрока будут варьироваться от 0 до менее 0,400, а количество хоумранов за сезон будет колебаться от нуля. примерно до 70. Для некоторых алгоритмов интеллектуального анализа данных такие различия в диапазонах будут иметь тенденцию к тому, что переменная с большим диапазоном будет оказывать чрезмерное влияние на результаты, то есть большая изменчивость в хоум-ранах будет преобладать, чем меньшая изменчивость в средних значениях. .

Поэтому разработчики данных должны нормализовать свои числовые переменные, чтобы стандартизировать масштаб влияния каждой переменной на результаты.

(i) МИН-МАКС НОРМАЛИЗАЦИЯ: - - -

Нормализация Min-Max работает, видя, насколько значение поля больше минимального значения min (X), и масштабируя эту разницу по диапазону, т.е.

Для веса 1613 нормализация минимального и максимального значения равна 0.

Средний диапазон равен среднему значению минимального и максимального значений в наборе данных.

Для среднего диапазона, который весит ровно посередине между минимальным и максимальным весом, здесь нормализация min-max составляет 0,5.

Таким образом, значение данных среднего диапазона имеет минимальное и максимальное значение нормализации 0,5.

Самое тяжелое (максимальное) значение имеет минимальное и максимальное значение нормализации, равное 1.

То есть значения данных, представляющие максимум поля, будут иметь нормализацию min -max, равную 1.

Подводя итог, значения нормализации min-max будут находиться в диапазоне от 0 до 1.

(ii) Нормализация Z-показателя: - - -

Стандартизация Z-показателя, которая очень широко распространена в мире статистического анализа, работает, принимая разницу между значением поля и средним значением поля и масштабируя эту разницу на SD значений поля.

Например, среднее значение = 3005,49, стандартное отклонение = 852,49.

Для X = 1613, Z = -1,63

Таким образом, значения данных, которые лежат ниже среднего, будут иметь отрицательную стандартизацию Z-Score.

Для X = среднее значение Z = 0

То есть значения, попадающие точно в среднее значение, будут иметь нулевую стандартизацию Z-балла.

Для X = 4997, Z-оценка = 2,34

То есть значения данных, которые лежат выше среднего, будут иметь положительный Z-балл.

(iii) ДЕСЯТИЧНОЕ МАСШТАБИРОВАНИЕ: - - -

Десятичное масштабирование гарантирует, что каждое нормализованное значение находится между -1 и 1.

где d представляет количество цифр в значении данных с наибольшим абсолютным значением.

(iv) ПРЕОБРАЗОВАНИЯ ДЛЯ ДОСТИЖЕНИЯ НОРМАЛЬНОСТИ: -

Некоторые алгоритмы интеллектуального анализа данных и статистические методы требуют, чтобы переменная имела нормальное распределение. Нормальное распределение - это непрерывное распределение вероятностей, обычно известное как колоколообразная кривая, которая является симметричной. Она центрируется на среднем значении «мю», а ее разброс определяется SD ( сигма).

Распространенное заблуждение, что переменные, к которым применена стандартизация z-баллов, следуют стандартному нормальному Z-распределению.

Это неверно! Верно, что Z-стандартизованные данные будут иметь значение 0 и SD = 1, но распределение все еще может быть искажено.

мы используем следующую статистику для измерения асимметрии распределения:

Для данных со смещением вправо среднее значение больше медианы, и поэтому асимметрия будет положительной, в то время как для данных со смещением влево среднее значение меньше медианы, порождающей отрицательное значение для асимметрии. и одномодальные) данные, медиана, мода и среднее значение равны, поэтому асимметрия равна нулю.

Стандартизация Z-балла не влияет на асимметрию.

Чтобы сделать наши данные «более нормально распределенными», мы должны сначала сделать их симметричными, что означает устранение перекоса. Чтобы устранить перекос, мы применяем преобразование к данным. Обычными преобразованиями являются преобразование естественного журнала ln (переменная) , преобразование квадратного корня sqrt (переменная) и обратное преобразование квадратного корня 1 / sqrt (переменная)

После достижения симметрии мы все еще можем не прийти к нормальности. Чтобы проверить нормальность, мы строим график нормальной вероятности, который отображает квантили определенного распределения в сравнении с квантилями стандартного нормального распределения. процентиль, p-й квантиль распределения - это значение x, такое что p% значений распределения меньше или равно x.

На графике нормальной вероятности, если распределение нормальное, большая часть точек на графике должна приходиться на прямую линию; систематическое отклонение от линейности на этом графике указывает на ненормальность.

К счастью, алгоритмы, требующие нормальности, обычно работают нормально, когда им предоставляются симметричные и унимодальные данные.

Наконец, когда алгоритм завершит свой анализ, не забудьте «де-преобразовать» данные. Пусть x представляет исходное значение, а y представляет преобразованную переменную. Тогда для обратного преобразования квадратного корня мы имеем

при «де-трансформации» получаем

Результаты, которые ваш алгоритм предоставил в преобразованном масштабе, необходимо деформировать.

«ЧИСЛЕННЫЕ МЕТОДЫ ОПРЕДЕЛЕНИЯ ПОЛЬЗОВАТЕЛЕЙ»: - - -

(а) Метод Z-оценки для выявления выбросов:

Метод Z-оценки для выявления выбросов утверждает, что значение данных является выбросом, если его z-оценка меньше -3 или больше 3. Переменная Значения с Z-оценками, намного превышающими этот диапазон, могут потребовать дальнейшего изучения, чтобы убедиться, что они не представляют ошибок ввода данных или других проблем. Однако не следует автоматически исключать выбросы из анализа.

Например, пусть минимальная z-оценка равна -1,63, а максимальная z-оценка равна 2,34 для данных, тогда мы можем сделать вывод, что в этих данных нет выбросов.

К сожалению, среднее значение и стандартное отклонение, которые являются частью формулы для стандартизации Z-Score, довольно чувствительны к наличию выбросов. То есть, если выброс добавляется в набор данных (или удаляется из него), тогда на значения среднего и SD будет чрезмерно влиять присутствие (или отсутствие) этого нового значения данных. Поэтому при выборе метода оценки выбросов может показаться нецелесообразным использовать меры, которые сами по себе чувствительны к их присутствию. .

Поэтому аналитики данных разработали более надежные статистические методы обнаружения выбросов, которые менее чувствительны к наличию самих выбросов. Наш простой надежный метод заключается в использовании IQR. Квартили набора данных делят набор данных на следующие четыре части, каждая из которых содержит 25% данных:

первый квартиль (Q1) - это 25-й процентиль.

Второй квартиль (Q2) - это 50-й процентиль, то есть медиана.

третий квартиль (Q3) - это 75-й процентиль.

Тогда IQR - это показатель изменчивости, гораздо более надежный, чем SD. IQR рассчитывается как IQR = Q3 – Q1 и может интерпретироваться как представление распределения средних 50% данных.

Поэтому надежная мера обнаружения выбросов определяется следующим образом.

Значение данных является выбросом, если

(i) он расположен на 1,5 (IQR) или более ниже Q1,

or

(ii) он расположен на 1,5 (IQR) или более выше Q3

(b) «ПЕРЕМЕННЫЕ ФЛАГА»: - -

Некоторые аналитические методы, такие как регрессия, требуют, чтобы предикторы были числовыми. Таким образом, аналитикам, желающим использовать категориальные предикторы в регрессии, необходимо перекодировать категориальную переменную в одну или несколько флаговых переменных. Флаговая переменная (или фиктивная переменная, или индикаторная переменная) является категориальной переменная, принимающая только два значения, 0 и 1. Например, категориальный предиктор пола, принимающий значения для женщин и мужчин, может быть перекодирован во флаговую переменную sex_flag следующим образом:

если sex = female, то sex_flag = 0, иначе если sex = male, то sex_flag = 1

когда категориальный предиктор принимает k≥3 возможных значений, затем определите (k-1) фиктивные переменные и используйте неназначенную категорию в качестве ссылочной категории. Например, если область категориального предиктора имеет k = 4 возможных категории, {север, восток, юг, запад}, тогда аналитик может определить следующие k-1 = 3 флаговые переменные.

north_flag: если region = north, то north_flag = 1, иначе north_flag = 0

east_flag: если region = east, то east_flag = 1, иначе east_flag = 0

south_flag: если region = south, тогда south_flag = 1, иначе south_flag = 0

«ПРЕОБРАЗОВАНИЕ КАТЕГОРИЧЕСКИХ ПЕРЕМЕННЫХ В ЧИСЛОВЫЕ ПЕРЕМЕННЫЕ»: - - -

Не будет ли проще просто преобразовать категориальную переменную в одну числовую переменную, чем использовать несколько разных флаговых переменных? Например, предположим, что мы определили количественную переменную region_num следующим образом:

К сожалению, это частая и опасная ошибка. Теперь алгоритм ошибочно считает следующее:

(i) Четыре региона упорядочены

(ii) запад ›юг› восток ›север

(iii) запад в три раза ближе к югу по сравнению с севером и так далее.

Таким образом, в большинстве случаев аналитику данных следует избегать преобразования категориальных переменных в числовые. Исключение составляют категориальные переменные, которые четко упорядочены, например, переменная survey_response, принимающая значения всегда, обычно, иногда, никогда. В этом случае одно можно было бы присвоить ответам числовые значения, хотя можно спорить с фактическими присвоенными значениями, такими как:

Никогда не должно быть «0», а не «1»? всегда ближе к обычно - к иногда? важно тщательное присвоение числовых значений

«ОБЪЕДИНЕНИЕ ЧИСЛОВЫХ ЗНАЧЕНИЙ»: - -

некоторые алгоритмы предпочитают категориальные, а не непрерывные предикторы, и в этом случае нам потребуется разделить любые числовые предикторы на интервалы или полосы. Например, мы можем захотеть разделить числовой предиктор house значение на низкое, среднее и высокое. Существуют следующие четыре распространенных метода объединения числовых предикторов:

(i) Биннинг равной ширины делит числовой предсказатель на k категорий равной ширины, где k выбирается клиентом или аналитиком.

(ii) Биннинг с равной частотой делит числовой предсказатель на k категорий, каждая из которых имеет k / n записей, где n - общее количество записей.

(iii) Биннинг путем кластеризации использует алгоритм кластеризации, такой как кластеризация k-средних, для автоматического вычисления «оптимального» разделения.

(iv) Группирование на основе прогнозируемого значения. Методы (i) - (iii) игнорируют целевую переменную; разбиение на основе прогнозируемого значения разбивает числовой прогнозирующий элемент на основе влияния каждого раздела на значение целевой переменной.

Биннинг одинаковой ширины не рекомендуется для большинства приложений интеллектуального анализа данных, так как на ширину категорий может сильно влиять наличие выбросов. Равное частотное распределение предполагает, что каждая категория одинаково вероятна, что не является оправданным. Следовательно, методы ( iii) и (iv) являются предпочтительными.

Предположим, у нас есть следующий крошечный набор данных, который мы хотели бы разделить на k = 3 категории:

X ={1,1,1,1,1,2,2,11,11,12,12,44}

(i) Используя биннинг равной ширины, мы разделяем X на следующие категории равной ширины.

Низкий: 0≤X ‹15, который содержит все данные, кроме одного

Средний: 15≤X ‹30, который вообще не содержит значений данных

Высокий: 30≤ X ‹45, что содержит единственный выброс

(ii) Используя равные интервалы частот, мы имеем n = 12, k = 3 и n / k = 4.

Низкий: содержит первые четыре значения данных. Все X = 1

Средний: содержит следующие четыре значения данных, {1,2,2,11}

Высокий: содержит последние четыре значения данных, {11,12,12,44}
Обратите внимание, что одно из средних значений данных равно значению данных в низкая категория, а другой соответствует значению данных в категории высокая. Это нарушает очевидное эвристика: Равные значения данных должны принадлежать к одной категории.

«УДАЛЕНИЕ ПОЛЕЗНЫХ ПЕРЕМЕННЫХ»: - -

Аналитик данных может пожелать удалить переменные, которые не помогут анализу, независимо от предложенной задачи или алгоритма интеллектуального анализа данных.

(i) Унарные переменные

(ii) Переменные, которые очень близки к унарным

Унарные переменные принимают только одно значение, поэтому унарная переменная является не столько переменной, сколько константой. Например, при сборе данных по выборке учащихся в частной школе для девочек, эта переменная пола будет унарной, так как каждый субъект будет женщиной. Поскольку пол является постоянным во всех наблюдениях, он не может иметь никакого влияния на какой-либо алгоритм интеллектуального анализа данных или статистический инструмент. Переменная должна быть удалена.

Иногда переменная может быть почти унарной. Например, предположим, что 99,95% игроков в хоккейной лиге - женщины, а остальные 0,05% - мужчины. Таким образом, переменный пол очень близок, но не совсем унарен. может быть полезен для исследования игроков-мужчин, некоторые алгоритмы будут рассматривать переменную как по существу унарную. Например, алгоритм классификации может быть более чем на 99,9% уверен, что данный игрок - женщина. Таким образом, аналитикам данных необходимо взвесить, насколько близка к унарной данной переменной, и должна ли такая переменная быть сохранена или удалена.

«ПЕРЕМЕННЫЕ, КОТОРЫЕ НЕ СЛЕДУЕТ УДАЛЯТЬ»: - -

Удаление из анализа следующих типов переменных - это распространенная, хотя и сомнительная практика:

(i) переменные, для которых не хватает 90% или более переменных

(ii) сильно коррелированные переменные

Перед тем, как удалить переменную из-за того, что она имеет 90% или более пропущенных значений, учтите, что может быть шаблон в отсутствии и, следовательно, полезная информация, которую вы можете выбросить. Переменные, которые содержат 90% отсутствующих значений, представляют проблему для любой стратегии для вменения недостающих данных. Например, являются ли оставшиеся 10% случаев действительно репрезентативными для отсутствующих данных, или пропущенные значения возникают из-за какого-то систематического, но ненаблюдаемого явления?

Однако, если у аналитика данных есть основания полагать, что 10% являются репрезентативными, то он или она может продолжить вменение недостающих 90%. Настоятельно рекомендуется, чтобы вменение основывалось на методах регрессии или дерева решений. Независимо от того, являются ли 10% репрезентативными для всего целого или нет, аналитик данных может решить, что было бы разумно создать переменную-флаг для значений, не являющихся пропущенными, поскольку они могут быть очень полезны для прогнозирования или классификации. в цифре 90% нет ничего особенного, аналитик может использовать любую большую долю, которую он или она сочтет обоснованной.

Итог: Следует избегать удаления переменных только потому, что в них много пропущенных переменных

Примером коррелированных переменных могут быть осадки и посещаемость на государственном пляже. По мере увеличения количества осадков посещаемость пляжа имеет тенденцию к снижению, так что переменные имеют отрицательную корреляцию. Включение коррелированных переменных может в лучшем случае дважды подсчитать конкретный аспект Таким образом, при столкновении с двумя сильно коррелированными переменными некоторые аналитики данных могут решить просто удалить одну из переменных. Мы не рекомендуем этого делать, поскольку это может привести к потере важной информации. Предлагается применить анализ главных компонентов, в котором общая изменчивость коррелированных предикторов может быть преобразована в набор некоррелированных основных компонентов.

«УДАЛЕНИЕ ДУБЛИКАЦИОННЫХ ЗАПИСЕЙ»: - - - - - -

Во время истории базы данных записи могли быть случайно скопированы, что привело к созданию дублирующих записей. Дублирующие записи приводят к завышению веса значений данных в этих записях. Поэтому, если записи действительно дублируются, следует сохранить только один их набор.