Публикации по теме 'sampling'


Отбор проб
Это искусство отбирать лучшее В этом сообщении блога мы обсудим выборку и связанные с ней компоненты. Этой теме обычно не придают особого значения по сравнению с другими причудливыми статистическими терминами, такими как байес, частота, распределение и т. Д. Тема семплирования достаточно сухая и требует от читающего пользователя особых усилий. Моя цель из этого блога - поделиться темой выборки в более наглядной форме. В машинном обучении выборка относится к подмножеству данных из..

Можем ли мы предсказать изменение цен в онлайн-супермаркете с помощью машинного обучения и…
Часть 2: подход к машинному обучению В этой серии статей проходит моя магистерская диссертация, которая была не только моим первым проектом сквозного машинного обучения, но и мостом между моей эконометрикой и изучением машинного обучения. Моя диссертация пыталась предсказать поведение фирм при изменении цен. Эта история, за которой следует Часть 1 - эконометрический подход , показывает, как я решил эту проблему с помощью машинного обучения. Если хотите посмотреть, полный текст..

Как эффективно разделить данные для вашего проекта по науке о данных
Данные — один из самых важных ресурсов для любого проекта по науке о данных. Но какая польза от большого количества данных, если вы не можете эффективно их использовать? В конце концов, ваш успех как специалиста по обработке и анализу данных зависит от того, насколько умело вы умеете манипулировать данными и анализировать их, чтобы извлекать из них полезные идеи. Одним из распространенных шагов в вашем проекте по науке о данных после сбора данных является разделение данных на обучение и..

Стратифицированная выборка: возможно, вы неправильно разбили набор данных
Произвольное создание разбиений набора данных не всегда является оптимальным решением, поскольку пропорции в целевой переменной могут сильно отличаться. Разрешите познакомить вас со стратифицированной проверкой в ​​Python. Во время разработки модели машинного обучения принято разделять набор данных на обучение и тестирование, и даже разбиение на валидацию для получения более репрезентативных результатов. Однако есть кое-что, что потенциально может повлиять на качество вашего..

Победа над несбалансированными наборами данных
Это выборка ответа? Давайте разберемся! Абхи Савалия , Чираю Шах , Сагар Парих Предположим, вы работаете в финансовом учреждении, и перед вами стоит задача прогнозировать мошенничество с кредитными картами. Вы выбрали лучший алгоритм для обучения своей модели. Оценив модель, вы обнаружите, что она имеет точность 99,8%. В восторге, вы открываете пиво, но подождите! В ходе расследования мы обнаружили, что у нас имеется очень несбалансированный набор данных, что..

Примеры данных из диаграммы доминирования биткойнов по рыночной капитализации монет.
Примеры данных из диаграммы доминирования биткойнов по рыночной капитализации монет. CoinMarketCap ( CoinMarketCap ) имеет несколько глобальных диаграмм, которые помогут вам получить представление об общих рынках криптовалют. Вы можете найти их на https://coinmarketcap.com/charts/ . Меня особенно интересовала диаграмма доминирования, поскольку я пытался проанализировать, как доминирование биткойнов и альткойнов влияет на рынки и какую роль они играли в важные даты за последний год...

Обнаружение мошенничества с кредитными картами
Модели машинного обучения и методы сравнения и выборки глубоких нейронных сетей для повышения производительности В этой статье давайте проведем вас через конкурс Kaggle по обнаружению мошенничества с кредитными картами. Глубокая нейронная сеть и две модели машинного обучения будут построены для решения этой проблемы и сравнения производительности различных моделей. Кроме того, для улучшения модели будут реализованы методы выборки данных. Как обычно, разделен на 9 частей:..