Публикации по тегам classification

Публикации по теме 'classification'

Опорные векторы в SVM

Машина опорных векторов — это контролируемое обучение, которое находит гиперплоскость в N-мерном пространстве для четкой классификации точек данных. SVM использует функцию потери шарнира и регуляризацию L2. Загрузка библиотек — import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn import datasets from sklearn.svm import SVC %matplotlib inline plt.rcParams['figure.figsize'] = (10, 5) 2. Загрузка и предварительная обработка набора данных — #..

Введение в метод передискретизации синтетического меньшинства и его реализация с нуля

Введение в метод передискретизации синтетического меньшинства и его реализация с нуля Подход к построению классификаторов из несбалансированных наборов данных Несбалансированные наборы данных Набор данных несбалансирован, если классификационные метки представлены неравномерно, поэтому дисбаланс порядка 100 к 1 является распространенной проблемой в большом количестве реальных сценариев, таких как обнаружение мошенничества. Было предпринято большое количество попыток решить эту..

Решение проблемы классового дисбаланса — часть 2/4

Предварительная обработка несбалансированных наборов данных с использованием выбора признаков. Известно, что проблема дисбаланса классов значительно ухудшает эффективность классификации и привлекает все большее внимание исследователей. Выбор признаков (FS) выделяется в литературе как одна из процедур предварительной обработки набора данных, которая улучшает обучение на несбалансированных данных. В этой статье мы решили изучить причины этого, изучив влияние FS на несбалансированные наборы..

Набор данных о доходах переписи взрослых: использование нескольких моделей машинного обучения

Мы все слышали, что наука о данных — «самая сексуальная работа 21 века». Следовательно, также удивительно знать, что до того, как мир был перенаселен данными, концепция нейронных сетей была сформулирована полвека назад. Еще до того, как было придумано слово «машинное обучение», Дональд Хебб в своей книге «Организация поведения» в 1949 году создал модель, основанную на взаимодействии клеток мозга. В книге представлены теории Хебба о возбуждении нейронов и связи между нейронами. Хебб..

Метрики оценки для серии моделей классификации, часть 2. Почему коэффициент Джини ненадежен…

При работе с сильно несбалансированными наборами данных коэффициент Джини перестает быть надежным показателем для оценки эффективности модели классификации. Чтобы проиллюстрировать, почему, мы продолжим использовать набор данных о раке молочной железы scikit-learn, который мы использовали в предыдущей статье: Метрики оценки для серии моделей классификации — Часть 1 . Мы начнем с импорта набора данных и создадим его сильно несбалансированную версию: Далее мы приступим к обучению..

Классификация рака молочной железы с использованием SVC и классификаторов логистической регрессии

В этой статье я продолжу классификацию с контролируемым обучением, используя набор данных Рак молочной железы, Висконсин (Диагностика) , но на этот раз использую два других классификатора. Один из них — это классификатор машины опорных векторов (SVC), а другой — классификатор логистической регрессии, помогающий диагностировать пациентов. Нажмите здесь, чтобы просмотреть классификацию рака молочной железы с использованием классификатора KNN (K ближайших соседей). 0. Импортируйте..

Использование возможностей классификации в машинном обучении — мое путешествие по стажировке в Хамойе…

Введение Начало этапа C программы стажировки в Хамойе было захватывающим опытом, поскольку я погрузился в мир классификации машинного обучения. В этой статье я очень рад поделиться своими мыслями и размышлениями об этапе C, на котором я погрузился в увлекательную область управления метрикой качества глобального экологического следа с использованием методов классификации. Присоединяйтесь ко мне, когда я буду обсуждать ключевые компоненты Этапа C, извлеченные ценные уроки и личный и..