Публикации по теме 'sampling'
Отбор проб
Это искусство отбирать лучшее
В этом сообщении блога мы обсудим выборку и связанные с ней компоненты. Этой теме обычно не придают особого значения по сравнению с другими причудливыми статистическими терминами, такими как байес, частота, распределение и т. Д.
Тема семплирования достаточно сухая и требует от читающего пользователя особых усилий. Моя цель из этого блога - поделиться темой выборки в более наглядной форме.
В машинном обучении выборка относится к подмножеству данных из..
Можем ли мы предсказать изменение цен в онлайн-супермаркете с помощью машинного обучения и…
Часть 2: подход к машинному обучению
В этой серии статей проходит моя магистерская диссертация, которая была не только моим первым проектом сквозного машинного обучения, но и мостом между моей эконометрикой и изучением машинного обучения. Моя диссертация пыталась предсказать поведение фирм при изменении цен. Эта история, за которой следует Часть 1 - эконометрический подход , показывает, как я решил эту проблему с помощью машинного обучения. Если хотите посмотреть, полный текст..
Как эффективно разделить данные для вашего проекта по науке о данных
Данные — один из самых важных ресурсов для любого проекта по науке о данных. Но какая польза от большого количества данных, если вы не можете эффективно их использовать? В конце концов, ваш успех как специалиста по обработке и анализу данных зависит от того, насколько умело вы умеете манипулировать данными и анализировать их, чтобы извлекать из них полезные идеи.
Одним из распространенных шагов в вашем проекте по науке о данных после сбора данных является разделение данных на обучение и..
Стратифицированная выборка: возможно, вы неправильно разбили набор данных
Произвольное создание разбиений набора данных не всегда является оптимальным решением, поскольку пропорции в целевой переменной могут сильно отличаться. Разрешите познакомить вас со стратифицированной проверкой в Python.
Во время разработки модели машинного обучения принято разделять набор данных на обучение и тестирование, и даже разбиение на валидацию для получения более репрезентативных результатов. Однако есть кое-что, что потенциально может повлиять на качество вашего..
Победа над несбалансированными наборами данных
Это выборка ответа? Давайте разберемся!
Абхи Савалия , Чираю Шах , Сагар Парих
Предположим, вы работаете в финансовом учреждении, и перед вами стоит задача прогнозировать мошенничество с кредитными картами. Вы выбрали лучший алгоритм для обучения своей модели. Оценив модель, вы обнаружите, что она имеет точность 99,8%. В восторге, вы открываете пиво, но подождите!
В ходе расследования мы обнаружили, что у нас имеется очень несбалансированный набор данных, что..
Примеры данных из диаграммы доминирования биткойнов по рыночной капитализации монет.
Примеры данных из диаграммы доминирования биткойнов по рыночной капитализации монет.
CoinMarketCap ( CoinMarketCap ) имеет несколько глобальных диаграмм, которые помогут вам получить представление об общих рынках криптовалют. Вы можете найти их на https://coinmarketcap.com/charts/ . Меня особенно интересовала диаграмма доминирования, поскольку я пытался проанализировать, как доминирование биткойнов и альткойнов влияет на рынки и какую роль они играли в важные даты за последний год...
Обнаружение мошенничества с кредитными картами
Модели машинного обучения и методы сравнения и выборки глубоких нейронных сетей для повышения производительности
В этой статье давайте проведем вас через конкурс Kaggle по обнаружению мошенничества с кредитными картами. Глубокая нейронная сеть и две модели машинного обучения будут построены для решения этой проблемы и сравнения производительности различных моделей. Кроме того, для улучшения модели будут реализованы методы выборки данных. Как обычно, разделен на 9 частей:..