Публикации по тегам imbalanced-data

Публикации по теме 'imbalanced-data'

Производственная серия ML — Искаженные данные или несбалансированные данные

Определение Набор данных с различным соотношением классов называется асимметричным набором данных. Некоторые из примеров показаны ниже Пример Ниже приведены 4 примера: Компания-производитель. предположим, что вы работаете с компанией-производителем мобильных устройств, и ваша задача — выявить дефекты мобильных телефонов. но набор данных, который у вас есть, содержит очень мало примеров дефектных наборов. Medical Diagnosis Company: медицинской компании нужно, чтобы вы выявили..

Можем ли мы предсказать изменение цен в онлайн-супермаркете с помощью машинного обучения и…

Часть 2: подход к машинному обучению В этой серии статей проходит моя магистерская диссертация, которая была не только моим первым проектом сквозного машинного обучения, но и мостом между моей эконометрикой и изучением машинного обучения. Моя диссертация пыталась предсказать поведение фирм при изменении цен. Эта история, за которой следует Часть 1 - эконометрический подход , показывает, как я решил эту проблему с помощью машинного обучения. Если хотите посмотреть, полный текст..

Это должен знать каждый Data Scientist!!!

В сценариях маркетинга, проблемы прогнозирования оттока и т. д. каждый ученый столкнулся бы с проблемой дисбаланса классов, когда количество баллов для класса A и класса B было бы очень разным, то есть оно могло бы быть 1: 9 или даже меньше на каждого. скажем 1:200. В ситуациях, когда вы хотите предсказать клиентов, которые могут купить продукт, если они нажмут на баннер. Если копнуть глубже, многие клиенты случайно нажимают на баннер. Можем ли мы использовать ML в те времена? Ответ:..

Дисбаланс классов в контролируемом машинном обучении

Введение Классификация — это тип контролируемого машинного обучения, при котором наблюдения со связанными с ними атрибутами назначаются уникальному классу. Это делается с помощью алгоритма изучения взаимосвязи между входными данными и целевым классом, а затем использования этой информации для прогнозирования класса, к которому принадлежит наблюдение. Количество уникальных классов может быть два (бинарная классификация) или более (мультиклассовая классификация). Во время классификации мы..

Виновники машинного обучения: несбалансированные данные

Проблемы обучения алгоритмов машинного обучения с несбалансированными данными Оглавление: "Введение" Что такое несбалансированные данные? Влияние на границы принятия решений и прогнозы Вводящие в заблуждение показатели эффективности Методы обработки несбалансированных данных "Заключение" 1. Введение "Демистификация проблем машинного обучения" – это серия блогов, в которых я освещаю проблемы и проблемы, возникающие при обучении алгоритма машинного обучения из-за..

Как справиться с несбалансированным набором данных в машинном обучении

6 различных методов решения одной из самых распространенных проблем, с которыми вы столкнетесь. Несбалансированные наборы данных - это основная проблема в каждом сборнике вопросов на собеседовании по машинному обучению. Начнем с примера: Представьте, что вы пытаетесь построить модель классификации, и у вас есть два класса: кошки и собаки. К сожалению, ваши данные очень искажены: есть 950 изображений кошек и 50 изображений собак. Если ваша модель классифицирует каждую картинку как..

Система обнаружения мошенничества с оплатой арендной платы

Обнаружение мошенничества на платформе арендной платы Housing.com с помощью машинного обучения Обзор В этом блоге рассказывается о методологии решения любой проблемы машинного обучения с использованием структуры CRISP-DM. В блоге мы показали, как мы решили проблему мошенничества с кредитными картами, с которой мы столкнулись на Housing.com, следуя структуре CRISP-DM. В этом блоге мы рассказываем о некоторых важных функциях, которые мы использовали для обнаружения мошенничества, и..