Knime — предварительная обработка данных, очистка данных для моделирования.

Неважно, насколько хорошо вы умеете строить небоскреб, если фундамент неправильный, он однажды рухнет. Так обстоит дело с моделированием в науке о данных. Неважно, какую технику моделирования вы используете, если вы неправильно понимаете данные и не прилагаете усилий к очистке данных, вы никогда не сможете создать хорошую модель из необработанных данных. По этой причине почти 60–70% времени уходит на предварительную обработку.

Во втором выпуске серии Knime мы попытались охватить основные узлы при предварительной обработке данных.

Здесь был использован легендарный набор данных Titanic ML от Kaggle, чтобы наши зрители знали об этапах предварительной обработки в KNIME. Нажмите здесь, чтобы получить ссылку на детали проблемы.

Давайте углубимся в это.

Чтение файла

Во-первых, нам нужно прочитать данные. Его можно прочитать с узла ввода-вывода Knime, который поддерживает несколько форматов, таких как xlsx, csv, xls и т. д., но для понимания здесь рассматривается .csv.

Прочтите CSV-файл, дважды щелкнув узел CSV Reader, доступный в IO›Read›CSV ​​Reader.

Узел можно найти напрямую, введя «Читать» в параметре поиска, как указано на снимке экрана.

Изменение формата

Тип данных можно изменить в самом необработанном файле, щелкнув раздел преобразования в настройке.

Кроме того, в самом наборе данных в разделе Преобразование можно снять отметку о нерелевантных столбцах.

Лечение отсутствующих значений

Имеются общие параметры для вменения отсутствующих значений.

В зависимости от требования отсутствующие значения могут быть заменены. Как видно на скриншоте, отсутствующие значения в строке заменены на «Неизвестно», а значение double заменено медианой.

Кроме того, при необходимости колонке может быть назначена специальная обработка.

Здесь отсутствующие значения в Age были заменены на «999».

Удаление ненужных столбцов

Теперь, когда отсутствующие значения заменены, следующим шагом будет удаление ненужных столбцов.

Для удаления этих столбцов можно использовать узел разделения столбцов, который разбивает набор данных на две части на основе выбора столбца.

В этом наборе данных Name, Ticket и Cabin были разделены на второй набор данных, поэтому их можно удалить из существующего набора данных.

Теперь, когда ненужные столбцы были удалены, необходимо разделить набор данных на зависимые и независимые переменные, это также можно сделать с помощью разделителя столбцов.

Здесь первый набор данных — это независимые переменные, а второй набор данных содержит зависимую переменную "Выжил".

Биннинг

Для некоторых столбцов требуется особая обработка, например создание ячеек.

Это можно сделать с помощью узла Binning. Здесь Возраст был выделен в корзину. Поскольку тип данных двойной, используется узел CAIM Binner. Тип данных бинированного столбца заменяется строкой после создания бинов.

Одно горячее кодирование

Одно горячее кодирование категориальных данных может быть выполнено с использованием узлов «один ко многим», доступных при манипулировании.

В статье рассмотрен базовый уровень препроцессинга. Knime не ограничивается только этими узлами. Огромные узлы доступны в KNIME для каждой категории, что выходит за рамки статьи. Но команда KNIME проделала потрясающую работу по использованию множества узлов для каждой функции.

Обратитесь в Сообщество KNIME для получения дополнительной информации.

В следующей статье мы представим аспекты визуализации, которые можно исследовать с помощью KNIME.

StackErrors находится под управлением Ankita91 и Sreedev. Следите за разделом Ошибки стека в Kaggle, чтобы ознакомиться с нашими проектами по обработке и анализу данных.
Давайте учиться вместе. 💙