Публикации по теме 'data-preprocessing'


Анализ кредитного риска с помощью машинного обучения
Введение: Кредитный риск относится к риску невыполнения обязательств по кредиту или кредитной линии. В финансовой отрасли важно оценивать кредитный риск заемщиков, чтобы принимать обоснованные решения о кредитовании. В этом проекте мы будем использовать методы машинного обучения для анализа кредитного риска на основе исторических данных. Код: Во-первых, мы начнем с импорта необходимых библиотек и чтения данных: import pandas as pd import numpy as np from..

Анализ настроений - Полное руководство RNN. (Часть-1)
Полная статья состоит из 3 частей: Введение в НЛП Реализация RNN и LSTM Прогноз настроений RNN Это часть 1: Введение в НЛП Рассматриваемые темы: NLP и конвейеры, обработка текста, извлечение признаков, набор слов, TF-IDF, горячее кодирование, встраивание слов, Word2Vec, GloVE, встраивание для глубокого обучения НЛП и конвейер: НЛП расшифровывается как Обработка естественного языка . Это взаимодействие между компьютерами и человеческим языком, в частности,..

Как построить прогностическую модель с помощью машинного обучения на примере
Машинное обучение — это мощный инструмент, который можно использовать для создания прогностических моделей для широкого круга приложений, от прогнозирования поведения клиентов до прогнозирования будущих продаж. В этой статье мы рассмотрим шаги, которые вы можете предпринять для создания прогностической модели с использованием машинного обучения, и приведем пример, который поможет вам понять процесс. Шаг 1. Определите проблему и соберите данные Первый шаг в построении прогностической..

Руководство для начинающих по предварительной обработке данных в машинном обучении
Машинное обучение дает компьютеру возможность обучаться самостоятельно. Этого можно достичь безупречно, если машинное обучение будет основано на точных данных. Предварительная обработка данных - это первый и важный шаг в построении модели машинного обучения. В этом блоге мы узнаем о предварительной обработке данных, этапах ее выполнения и о том, как их применять. Для безупречной модели машинного обучения данные должны быть чистыми. Данные, собранные из внешнего мира, обычно содержат..

Обработка отсутствующих данных — Предварительная обработка данных
Чтобы было понятно, будем реализовывать с библиотекой(sklearn) и без нее. С библиотекой: Шаг 1 — Импорт библиотеки import pandas as pd import numpy as np import matplotlib.pyplot as plt Шаг 2 . Импорт набора данных dataset = pd.read_csv("your_file_path") X = dataset.iloc[:,:-1].values y = dataset.iloc[:,-1].values #Here let's not worry about Y Шаг 3 . Просмотрите недостающие данные Шаг 4 . Работа с библиотекой from sklearn.impute import..

Конкуренция Kaggle по продвинутому прогнозированию цен на жилье
Каждый, кто читал этот пост, возможно, слышал о Kaggle, имеющем широкий спектр наборов данных и соревнований с отличными призами. Я также был новичком в соревнованиях Kaggle и у меня не было опыта работы с ними, поэтому я решил попробовать, поэтому я направился в Kaggle и попробовал https://www.kaggle.com/c/ цены на жилье продвинутые методы регрессии » Во-первых, я хочу сообщить вам, что это мой первый средний пост, так что простите меня за любые ошибки. Если вы не можете понять..

Предварительная обработка данных на первом месте
Хотя я новичок в области науки о данных. Но некоторые юниоры часто задают мне такие вопросы. Что следует изучить в первую очередь между контролируемым и неконтролируемым? Что мне решать: регрессия или классификация? Какая модель лучше всего подходит для моего набора данных? Слышал, что случайный лес работает лучше, правда? Так что для них мне есть что сказать. Насколько хорошо ваша модель будет работать, в основном зависит от того, как вы обрабатываете набор данных. На мой..