Публикации по теме 'data-preprocessing'


Нормализация данных — краткое объяснение
Уровень статьи: начальный Мои клиенты часто спрашивают меня об особенностях тех или иных методов предварительной обработки данных, зачем они нужны и когда их использовать. Я расскажу о нескольких распространенных (и не очень) методах предварительной обработки в серии статей на эту тему. В этой серии предварительной обработки: Стандартизация данных — Краткое объяснение — для начинающих Нормализация данных — Краткое объяснение — для начинающих Горячее кодирование —..

Выбор функций с использованием подхода голосования
Как применять различные методы для выбора функций с помощью пакета Xverse. Выбор функций - это процесс, при котором вы автоматически или вручную выбираете те функции, которые больше всего влияют на вашу прогнозируемую переменную или выходные данные, которые вас интересуют. Одна из основных причин заключается в том, что машинное обучение следует правилу «мусор вывозить» , и поэтому вам нужно очень заботиться о функциях, которые скармливается модели. Наличие нерелевантных функций..

Подготовка к интервью ML — популярные темы
Здравствуйте, рад видеть вас здесь. В предыдущей статье мы рассмотрели основные алгоритмы машинного обучения: Подготовка к интервью для машинного обучения — алгоритмы машинного обучения В предыдущей статье я начал с общих концепций, вы можете ознакомиться с ними здесь: medium.com Сегодня давайте углубимся в некоторые популярные темы, которые часто обсуждаются в интервью по машинному обучению. Без лишних слов представляем вам очередную..

ПРОГНОЗИРОВАНИЕ СУММЫ СТРАХОВАНИЯ АВТОМОБИЛЯ
Что ж, одним из навыков, который подрывается ресурсами электронного обучения и аналитиками данных в целом, когда дело доходит до разработки плана анализа данных, является прогнозное моделирование. Многие аналитики считают этот навык совершенно ненужным, но это далеко от истины. В течение последнего месяца я оттачивал свои навыки машинного обучения в области прогнозирования и частично в области глубокого обучения (нейронных сетей). В этой статье я познакомлю вас с прогнозированием суммы..

KNNImputer для заполнения недостающих данных при предварительной обработке данных
Алгоритм K-ближайших соседей (KNN) для обработки недостающих данных K-Nearest Neighbours (далее KNN) — это контролируемый алгоритм машинного обучения, который использует k количество ближайших (ближайших) соседей для классификации экземпляра в соответствующий класс. . Соседи экземпляра находятся с использованием евклидова расстояния. Евклидово расстояние между двумя точками данных рассчитывается по следующей формуле. x = (x1, x2, …, xn) y = (y1, y2,…, yn) n — размер..

Непонятое искусство предварительной обработки данных: распутывание хаоса для осмысленного анализа
Введение: В обширной области анализа данных лежит часто неправильно понимаемый и недооцениваемый процесс, называемый предварительной обработкой данных. Это похоже на приручение дикого зверя, прежде чем его можно будет использовать, чтобы раскрыть свой истинный потенциал. В этой статье мы отправляемся в познавательное путешествие, чтобы исследовать тонкости предварительной обработки данных, ее значение и ее будущие последствия в ИТ-индустрии. Приготовьтесь к головокружительному..

Памятка по очистке/предварительной обработке данных
В этом посте подводятся итоги очистки данных и подчеркивается ее важность. Это дает вам представление об очистке данных с помощью ручных и автоматических подходов, таких как RANSAC , и, наконец, с помощью морфологии изображений, которая очищает бинарные изображения, заканчивая с такими понятиями, как нормализация , стандартизация и регуляризация . Чтобы сохранить этот пост как беглый взгляд, мы рассмотрим методы уменьшения размерности, такие как PCA, в будущих сообщениях...