Чего вам никто не говорит о машинном обучении в реальном времени

Для обучения моделям кредитных карт вам понадобится множество примеров транзакций, и каждая транзакция должна быть помечена как мошенничество или Not-Fraud. Этикетки должны быть максимально точными! Это наш помеченный набор данных. Этот набор данных является входом для контролируемых алгоритмов машинного обучения. На основе размеченных данных алгоритм обучает модель обнаружения мошенничества. Модель обычно представлена в виде двоичного классификатора с классами True (мошенничество) или False (Not-Fraud).

Помеченный набор данных играет центральную роль в этом процессе. Параметры нашего алгоритма, такие как метод нормализации признаков или функция потерь, очень легко изменить. Мы можем изменить сам алгоритм с логистической регрессии, например, на SVM или случайный лес. Однако вы не можете изменить помеченный набор данных. Эта информация предопределена, и ваша модель должна предсказывать метки, которые у вас уже есть.

2. Сколько времени занимает процесс маркировки данных?

Как мы можем маркировать самые свежие транзакции? Если клиенты сообщают о мошеннических транзакциях или краже кредитных карт, мы можем немедленно пометить транзакцию как «Мошенничество». Что нам делать с остальными транзакциями? Мы можем предположить, что транзакции, о которых не сообщается, «не являются мошенничеством». Как долго нам ждать, чтобы убедиться, что это не мошенничество? В последний раз, когда моя подруга потеряла кредитную карту, она сказала: «Я пока не буду сообщать о пропаже кредитной карты. Завтра я пойду в магазин, который был в последний раз, и спрошу их, нашли ли они мою кредитную карту ». К счастью, магазин нашел и вернул ей кредитную карту. Я не эксперт в области мошенничества с кредитными картами (я только хороший пользователь карты), но, исходя из моего опыта, нам следует подождать хотя бы пару дней, прежде чем отмечать транзакции как «Не мошенничество» .

Напротив, если кто-то сообщил о мошеннической транзакции, мы можем сразу же пометить эту транзакцию как «мошенничество». Человек, который сообщает о мошенничестве, вероятно, осознает мошенническую транзакцию только через несколько часов или пару дней после потери, но это лучшее, что мы можем сделать.

Таким образом, наш «самый свежий» помеченный набор данных будет ограничен несколькими «мошенническими» транзакциями с задержкой в несколько часов или дней и множеством «не мошеннических» транзакций с задержкой в 2–3 дня.

3. Попробуем ускорить процесс маркировки.

Наша цель - получить как можно более «свежие» маркированные данные. Фактически, у нас есть только ярлыки «свежего мошенничества». Для этикеток «Not Fraud» нам придется подождать несколько дней. Может показаться хорошей идеей построить модель, используя только данные с пометкой «Новое мошенничество». Однако мы должны понимать, что этот помеченный набор данных является необъективным, что может привести к множеству проблем с моделями.

Представим, что вчера открылся новый большой торговый центр, и мы получили одно сообщение о мошенничестве в отношении одной транзакции в этом магазине. Наш помеченный набор данных будет содержать только одну транзакцию из этого магазина с пометкой «Мошенничество». Все остальные транзакции из магазина еще не помечены. Алгоритм может решить, что этот магазин является надежным средством прогнозирования мошенничества, и все транзакции в этом магазине будут ошибочно классифицироваться как «Мошенничество» сразу же «в режиме реального времени». Преимущества реального времени дают нам реальные -время проблемы.

Вывод

Как мы видим, бизнес-сценарий обнаружения мошенничества с кредитными картами не выглядит лучшим сценарием для машинного обучения с учителем в реальном времени. Кроме того, я не мог представить себе хороший сценарий из других сфер бизнеса. Мне бы хотелось увидеть хорошие сценарии машинного обучения в реальном времени. Поделитесь, если у вас есть какая-либо информация или идеи, которыми можно поделиться с сообществом.

Чего вам никто не говорит о машинном обучении в реальном времени

2. Сколько времени занимает процесс маркировки данных?

3. Попробуем ускорить процесс маркировки.

Вывод

Вопросы по теме