Машинное обучение с участием человека

Важнейшим требованием для машинного обучения с учителем является доступ к достоверным данным. Но еще одна необходимость заключается в том, чтобы предоставить на этапе обучения соответствующий вклад от экспертов в предметной области.

Тогда решающий вопрос:

если у вас есть доступ к очень ценному эксперту в предметной области, как вы можете извлечь максимальную пользу из его времени?

В качестве типичного примера контролируемого подхода мы выбираем классификацию. Вот несколько конкретных случаев использования, когда специалисты в предметной области могут быть использованы с пользой.

Маркировка

Активное обучение — хорошее решение: вы просите эксперта пометить образцы, которые, скорее всего, помогут в задаче классификации. Например, вы хотите пометить элементы, которые находятся ближе к границе решения. Однако такой подход имеет тенденцию к максимальной точности, но не обязательно к отзыву. Это особенно верно, когда вы ищете редкие предметы (например, классы меньшинства или экстремальный дисбаланс классов): на самом деле случайный выбор образцов работает лучше с точки зрения отзыва.

Переопределение меток классов

Экспертов можно использовать для выяснения того, должны ли два разных класса быть действительно и абсолютно обособленными, или они должны или могут быть объединены. Это можно сделать с помощью матрицы, где в каждой ячейке вы указываете ограничение с точки зрения значения (-1 = полностью разделить классы; +1 = объединить классы). Затем вы применяете максимизацию ожидания ко всей системе классов.

Это называется классификацией на основе ограничений, и на самом деле это частично контролируемый метод переосмысления определений классов.

(Очень) шумные этикетки

Проблема классификации заключается в том, что она зависит от понимания данных экспертами в предметной области. Но в некоторых областях (например, обнаружение проблем на медицинских снимках, МРТ и т. д.) даже опытным врачам удается обнаружить лишь малую долю (скажем, 20–30%) проблем. Это очень важно, потому что вероятность успеха операции может упасть на 50% в случае не визуально обнаруженных признаков на МРТ. В этом случае у вас есть проблема с неправильными, отсутствующими или шумными метками. Опять же, вы можете применить полуконтролируемую технику.

Эта история вдохновлена ​​программной речью Карлы Э. Бродли из Северо-восточного университета, произнесенной на IEEE BigData Conference 2017.