Публикации по теме 'exploratory-data-analysis'


Кластеризация K-средних — Введение
Обзор популярного метода машинного обучения без учителя Когда мы работаем с немаркированными наборами данных на этапе исследовательского анализа данных проекта, нам может быть интересно разделить наши данные на группы на основе сходства. Это позволяет нам легко идентифицировать любые закономерности, которые могут существовать в данных, которые могут быть неочевидны для человеческого глаза. Это достигается за счет неконтролируемого процесса обучения кластеризации. Одним из наиболее..

Полный жизненный цикл проекта по науке о данных / машинному обучению
Вступление: Основным элементом проекта Data Science являются данные, без которых наука не может быть применена и, следовательно, ничего не может быть достигнуто. В связи с этим может возникнуть множество вопросов вроде - Зачем нам нужны данные? Какие данные требуются? Как получить данные? Что делать с данными? И список продолжается. Чтобы определить этот набор вопросов, должен быть какой-то заранее определенный путь или поток. Этот поток называется жизненным циклом..

День 3 #DataScience28: разработка функций
Разработка признаков — это важный и часто упускаемый из виду аспект машинного обучения, который может оказать огромное влияние на успех проекта. Это относится к процессу выбора и преобразования переменных, также известных как функции, для создания набора входных данных, которые будут использоваться в модели машинного обучения. Хорошая разработка функций — ключ к созданию успешной модели машинного обучения. Выбор функций может оказать существенное влияние на производительность модели...

МЛ классификация | Преобразование котировок на домашнем сайте | Тематическое исследование
Введение Вы когда-нибудь задумывались, как страховые компании поддерживают себя, предоставляя своим клиентам денежные гарантии в отношении их жизни, здоровья, имущества и т. д. Большинство этих компаний являются коммерческими организациями, что означает, что они должны получать прибыль, продавая страховки. Своевременная выплата премии клиентами выступает в качестве источника дохода для этих организаций, и любая коммерческая организация хотела бы увеличить свои доходы, чтобы получать..

От данных к инсайтам: практическое руководство по исследовательскому анализу данных (EDA) для начинающих
Исследовательский анализ данных (EDA) — это важный шаг в анализе данных, когда вы получаете обзор данных, чтобы понять их характеристики, выявить закономерности и обнаружить аномалии. Выполнение EDA может помочь вам извлечь ценную информацию и определить тенденции, которые могут повлиять на ваш процесс принятия решений. В этой статье мы шаг за шагом обсудим, какие вещи мы можем сделать/показать/визуализировать из любого набора данных с помощью EDA. Шаг 1. Понимание проблемы и данных..

Изучение набора данных цветов ириса
«Вы когда-нибудь слышали о наборе данных цветов ириса? Это один из самых известных наборов данных в мире машинного обучения и науки о данных, и не зря. Он состоит из 150 записей о цветках ириса, включая информацию об их длине и ширине чашелистиков и лепестков, а также о типе цветка ириса. В этом сообщении блога мы изучим набор данных Iris и узнаем о различных методах и методах, которые мы можем использовать для его анализа и понимания. Независимо от того, являетесь ли вы новичком или..

Исследование набора данных Netflix 2020 в R Markdown (EDA)
Исследование набора данных Netflix 2020 с помощью R Markdown (EDA) Набор данных состоит из телешоу и фильмов, доступных на Netflix по состоянию на 2019 год и часть 2020 года. Вы можете скачать его по этой ссылке: https://github.com/ygterl/EDA-Netflix-2020-in-R собранные из Flixable, сторонней поисковой системы Netflix. Исследование и изменение набора данных В этой части мы проверим наблюдения, переменные и значения наших данных. Этот раздел состоит из 3 частей; чтение, очистка..