Публикации по теме 'classification'


Путешествие по XGBoost: Milestone 2
Классификация с XGBoost Добро пожаловать во вторую статью из серии «Путешествие по XGBoost» . Сегодня мы построим нашу первую модель XGBoost на основе набора данных «болезни сердца» и создадим небольшое (но полезное) веб-приложение для передачи наших результатов конечным пользователям. Вот темы, которые мы сегодня обсуждаем. Темы, которые мы обсуждаем Сформировать задачу классификации Определите матрицу признаков и целевой вектор Создайте модель XGBoost (API, совместимый с..

Классификация документов, часть 2: Обработка текста (модель N-Gram и модель TF-IDF)
В этой статье я объясню некоторые основные концепции обработки текста при проведении машинного обучения для документов, чтобы классифицировать их по категориям. Это вторая часть серии, описанной ниже: Часть 1. Интуиция и как мы работаем с документами? Часть 2. Обработка текста (модель N-грамм и модель TF-IDF) Часть 3. Алгоритм обнаружения (машины опорных векторов и градиентный спуск) Часть 4. Варианты этого подхода (обнаружение вредоносных программ с помощью классификации..

Алгоритмы классификации — машинное обучение
Что такое Классификация? Классификация — это метод классификации наших данных по желаемому и определенному количеству классов, где мы можем присвоить метку каждому классу. Приложения классификации: распознавание речи, распознавание рукописного текста, биометрическая идентификация, классификация документов и т. д. Классификаторы могут быть: Двоичные классификаторы. Классификация только с 2 отдельными классами или с 2 возможными результатами. пример: мужчина и женщина..

Машины опорных векторов - мягкая формулировка маржи и трюк с ядром
Изучите некоторые из продвинутых концепций, которые делают машину опорных векторов мощным линейным классификатором Вступление Машина опорных векторов (SVM) - один из самых популярных методов классификации, цель которого напрямую минимизировать количество ошибок классификации. Существует множество доступных ресурсов для понимания основ работы машин поддерживающих векторов (SVM), однако почти во всех реальных приложениях (где данные линейно неразделимы ) SVM используют некоторые..

Классификация рукописных цифр: набор данных MNIST
Второй день моего челленджа по случайным наборам данных. Я разместил небольшую предысторию здесь о том, как я (и до сих пор) стремился решать случайный набор данных в день, чтобы улучшить свои навыки в области обработки данных. Итак, на этот раз мой генератор случайных ссылок на наборы данных выдал простую, но классическую задачу классифицировать рукописные цифры . Не думаю, что это требует больших пояснений, но я все же решил добавить маленькое, если вы, возможно, новичок, и вам..

Логистическая регрессия в Spark ML
Цель этого блога - продемонстрировать двоичную классификацию в pySpark. Различные этапы разработки модели классификации в pySpark следующие: 1) Инициализировать сеанс Spark 2) Загрузите и прочтите набор данных 3) Развитие начального понимания данных 4) Обработка пропущенных значений 5) Масштабирование функций 6) Тренировка тестового сплита 7) Обработка дисбаланса 8) Выбор функции 9) Оценка производительности Особенности Обработка дисбаланса с использованием весов..

Введение в XGBoost — С Python
XGBoost, как одно из наиболее широко используемых общедоступных программ для повышения, является важным навыком, которым должны обладать специалисты по обработке и анализу данных. Ансамбльные модели стали стандартным инструментом прогнозного моделирования. Усиление  – это общий метод создания ансамбля моделей [1]. Метод повышения был разработан почти одновременно с бэггингом . Как и бэггинг, бустинг обычно используется с деревом решений. В отличие от бэггинга, который требует..