Публикации по теме 'scikit-learn'


Ошибочно доверять лучшей модели GridSearchCV
Объясняется на четырех примерах, где «лучшая модель» на самом деле не является лучшей моделью. GridSearchCV от Scikit-learn — это часто используемый инструмент для оптимизации гиперпараметров модели машинного обучения. К сожалению, не все тщательно анализируют результат и просто используют оценку GridSearchCV’s best. Это означает, что во многих ситуациях вы можете не использовать фактическую наилучшую оценку. Давайте сначала определим, как запустить поиск по сетке и определить,..

Выбор модели в машинном обучении
Выбор модели в машинном обучении Во время машинного обучения мы минимизируем некоторую функцию потерь, чтобы узнать параметры модели. Кроме того, многие алгоритмы обучения (например, классификаторы опорных векторов и случайные леса) имеют гиперпараметры, которые должны быть определены вне процесса обучения. Случайные леса, например, представляют собой наборы деревьев решений; однако количество деревьев в лесу не изучается алгоритмом и должно быть задано заранее. Выбор модели,..

Как обрабатывать пропущенные значения в проектах Data Science
Обработка пропущенных значений имеет решающее значение в науке о данных, поскольку неполные данные могут привести к неточным результатам и предвзятым выводам. Игнорирование пропущенных значений также может привести к ошибкам в моделировании и прогнозах. Таким образом, правильная обработка пропущенных значений необходима для обеспечения надежности и достоверности анализа данных. В этом блоге мы будем использовать библиотеку the sklearn.impute для обработки отсутствующих данных во..

Вменение отсутствующих данных с помощью простых и расширенных методов
Учебное пособие по среднему значению, моде, временным рядам, KNN и вменению MICE Отсутствующие данные возникают, когда для интересующей нас переменной в наборе данных не хранятся данные. В зависимости от объема недостающие данные могут повредить результатам любого анализа данных или надежности моделей машинного обучения. При работе с отсутствующими данными с помощью Python пригодится функция dropna() от Pandas. Мы используем его для удаления строк и столбцов, содержащих нулевые..

Создание набора данных диаграммы бросков для всего сезона WNBA 2022 –  Часть 3
Полное многочастное прохождение , где мы очищаем веб-страницы, извлекаем информацию из текста, вставляем недостающие данные и визуализируем. В этой части рассматривается вменение классификации выстрелов — 2PT против 3PT. В конце концов, каждый снимок будет содержать классификацию 1PT, 2PT или 3PT. В этом посте рассказывается о ситуации, когда вы понятия не имеете, чем закончился выстрел (очевидно, здесь это неправда, но подыграйте) . Ряд Очистить данные Извлечь информацию из..

Классификация видов ирисов с использованием K — соседей
Ирис – это цветок, который мы могли найти в садах. Но заметили ли вы, что у этих видов цветов есть разные виды, хотя они выглядят одинаково? Различия заключаются в размере лепестков или чашелистиков, которые мы можем видеть на изображении ниже. В этой статье будут обсуждаться три вида ириса, в том числе ирис сетчатый, ирис разноцветный и ирис виргинский. Они имеют отличительные характеристики чашелистика или лепестка по длине и ширине. На основе набора данных, загруженного с..

Конвейер машинного обучения (с использованием scikit-learn)
Конвейер в машинном обучении Конвейер в машинном обучении — это последовательность шагов обработки данных, которая включает очистку данных, извлечение признаков, выбор и обучение модели, а также оценку модели. 1) Импорт необходимых библиотек и загрузка набора данных. 2) Создание пользовательской функции предварительной обработки, которая в основном удаляет отсутствующие данные и выбросы. В эту функцию также могут быть включены другие необходимые этапы предварительной обработки,..