Публикации по теме 'sklearn'


Kmeans для бинарной классификации
Kmeans используется как неконтролируемый алгоритм кластеризации. Мы действительно можем использовать эту функцию для классификации и сравнивать ее с другими контролируемыми алгоритмами. Здесь я сгенерировал 1000 синтетических данных и применил логистическую регрессию и Kmeans, чтобы увидеть, как эти модели могут классифицировать данные. Это данные, которые используются для бинарной классификации, показанной ниже: Из сгенерированных 1000 данных я разделил их на часть для обучения и..

Разница между Pipeline и make_pipeline в Scikit-Learn
Часто, работая над проектами по науке о данных, нам необходимо создавать конвейеры для прогнозного моделирования, потому что это делает возможным применение шагов предварительной обработки данных и построение модели по сравнению с ручным выполнением всех этих шагов. К счастью, scikit-learn предоставляет функциональные возможности для построения конвейеров прогнозирования на ходу. Он предоставляет два метода, т.е. Pipeline и make_pipeline . Хотя оба они обеспечивают одинаковую..

Вопрос интервью: объясните перекрестную проверку
Перекрестная проверка, которую иногда называют оценкой вращения или тестированием вне выборки, представляет собой любой из различных методов проверки модели для оценки того, как результаты статистического анализа будут обобщены в независимом наборе данных. Перекрестная проверка — это метод повторной выборки, который использует разные части данных для тестирования и обучения модели в разных итерациях. Он в основном используется в условиях, когда целью является…

Как я выиграл восьмую бронзовую медаль, экспериментируя с RobustScaler от Sklearn
Мои читатели могут не знать об этом, но я начал создавать курсы для Удеми. Чтобы подготовиться к курсам, я работал над конкурсными работами, которые являются моей работой, поэтому я могу провести обзор кода с моими онлайн-студентами. Во время создания видеороликов для курса я наткнулся на RobustScaler от sklearn. Я был настолько заинтригован этим методом масштабирования, который был разработан для выявления и удаления выбросов, что решил опробовать эту функцию на наборе данных Kaggle..

Установите пакеты Python 3 для машинного обучения в Linux Ubuntu 16.04
Задача состоит в том, чтобы запустить классификатор машины опорных векторов на 32-битном процессоре ARM в FPGA SoC. Для этого вам необходимо установить некоторые пакеты Python, такие как sklearn для классификатора и pandas для манипулирования наборами данных. С ограниченной памятью такой системы и без предварительно скомпилированных колес для архитектуры, а также с отсутствием Anaconda и Miniconda из-за этой конкретной архитектуры, возникает проблема. Прежде всего загрузите образ Linux..

Три критически важные, но недооцененные концепции машинного обучения Python
Когда вы думаете о том, как подойти к проекту машинного обучения с учителем (ML), процесс, начиная с получения ваших данных и заканчивая развертыванием вашей модели, часто может показаться написанным всего за несколько шагов: Получите ваши данные и конвертируйте файл данных в желаемый формат Разделите данные на обучающий и тестовый наборы и выберите показатель производительности. Исследуйте и визуализируйте свои данные Очистите свои данные и выполните проектирование/выбор функций..

Кратко о машинном обучении — Классификация
В статистике/машинном обучении проблема классификации — это проблема определения, к какой подгруппе (категории) относится новое наблюдение на основе заданного набора обучающих данных. Ниже приведены несколько важных классификаторов. Алгоритм дерева решений . Разделите данные на подгруппы на основе одного признака, который лучше всего разделяет данные. Прирост информации / Индекс Джини используется для количественной оценки того, насколько хорош раздел. Эта функция становится корнем..