Публикации по тегам exploratory-data-analysis

Публикации по теме 'exploratory-data-analysis'

Упрощение и понимание данных с помощью анализа главных компонентов

Упрощение и понимание данных с помощью анализа главных компонентов Анализ главных компонентов (PCA) — это мощный метод сведения большого набора переменных к низкоразмерному пространству. Эта статья покажет богатство информации, которую мы можем получить из данных, упростив и проанализировав пространство признаков с помощью PCA. В качестве примера мы будем использовать набор данных UCI ML по раку молочной железы в Висконсине (диагностический), доступный по адресу..

Статистика для машинного обучения: меры центральной тенденции

Статистика для машинного обучения: меры центральной тенденции Все проекты Data Science должны начинаться с: исследовательского анализа данных, а каждый EDA должен очищать данные, а затем начинать с описательной статики. Этот пост является первым из списка описательной статистики для EDA. Меры центральной тенденции Также известная как мера местоположения, она должна быть одной из первых статистических данных, вычисляемых для всех непрерывных переменных набора данных. Среднее..

Часть 2: Подготовка данных с помощью python стала проще!

Продолжение моей предыдущей статьи: Часть 1: Подготовка данных с помощью python стала проще !! Давайте углубимся в EDA и посмотрим, как мы можем обрабатывать числовые и резко отклоняющиеся значения в наборе данных. Итак, чего мы ждем, приступим. Шаг 5: Обработка числовых данных Масштабирование Позвольте мне сначала объяснить, почему важно масштабирование данных. Вы понимаете, что 1 кг - это то же самое, что 1000 г или 1 км - это 1000 метров, но ваша машина этого не..

Анализ и прогнозирование динамики нажатия клавиш - Часть 1 (EDA)

У каждого нажатия клавиши есть своя история! Каждый пользователь за свою жизнь набирает миллионы нажатий клавиш. Несмотря на то, что существует множество факторов, влияющих на шаблоны нажатия клавиш, все же есть некоторые скрытые сигнатуры шаблонов нажатия клавиш, которые оставляет позади каждый пользователь. Это один из многих методов, которые компании начали использовать для аутентификации пользователя. Более того, этот метод не является навязчивым (может происходить без ведома..

Анализ EDA и ML с наборами данных Kaggle Iris

Работая с различными наборами данных, доступными на kaggle , а затем работая с исследовательским анализом данных, я столкнулся с библиотекой Seaborn Python для визуализации данных. import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline После импорта вышеуказанных библиотек теперь мы собираемся проанализировать наши данные, прочитав файл csv с помощью кадра данных pandas, а затем используя функцию shape , чтобы узнать..

Выполнение анализа метеорологических данных

В этом блоге мы обсудим выполненный Анализ данных , основанный на следующем наборе данных . «Указывает ли кажущаяся температура и влажность, сравниваемые ежемесячно за 10 лет данных, увеличение из-за глобального потепления» Ниже представлена Гипотеза для анализа. Гипотеза означает, что нам нужно найти, является ли средняя кажущаяся температура за месяц месяца, скажем, апрелем, начиная с 2006 по 2016 год, и средней влажностью для за тот же период увеличились или нет...

Вменение отсутствующих значений

В реальных данных много пропущенных значений. Получение согласованных качественных данных без пропущенных значений — большая головная боль. Причиной отсутствия значений может быть повреждение данных, невозможность записи данных и многое другое. Пример из практики. Например, для опроса о депрессии мы можем предположить все причины отсутствия значений. Вот их немного. 1. нерешительность предоставить информацию 2. Информация в опросе не соответствует действительности 3. Мужчины не..