Различные алгоритмы машинного обучения применяются для построения моделей для решения сложных задач и достижения лучших результатов. По сути, их можно разделить на два широких подхода — генеративный и дискриминационный.
Рассмотрим простую классификационную проблему прогнозирования рака молочной железы как злокачественного или доброкачественного в зависимости от размера опухоли.
В этой задаче Y представляет прогнозируемую метку класса (злокачественная/доброкачественная), тогда как x представляет входной признак (размер опухоли). Практически в этом сценарии будет много других особенностей для рассмотрения, но для простоты давайте обучим модель только на размерах опухоли и предскажем категорию опухоли.
С вероятностной точки зрения цель состоит в том, чтобы найти условное распределение P(Y | x). Проще говоря, модель должна определить вероятность злокачественности или доброкачественности опухоли в зависимости от ее размера.
P(Y | x): Вероятность Y (злокачественного/доброкачественного) с учетом размера опухоли (x).
Прежде чем мы приступим к выбору алгоритма для обучения модели, важно понять различные способы решения этой проблемы. Как упоминалось выше, мы можем подойти к любой проблеме машинного обучения с помощью двух широких моделей.
Генеративные модели, которые явно моделируют фактическое распределение меток классов (Malign/Benign) в пространстве данных. Цель здесь состоит в том, чтобы найти совместную вероятность P(x, Y), а затем использовать это совместное распределение для оценки условной вероятности P(Y | x), чтобы сделать предсказания Y для новых значений x.
Шаги-
· Примите некоторую функциональную форму для P(x | Y), P(Y), оценив их параметры непосредственно из обучающих данных
· Используйте правило Байеса для расчета апостериорной вероятности:
oАприорная вероятность — это оценка вероятности метки класса Y, рассчитанная по обучающим данным (доступным размерам опухоли) до того, как будет наблюдаться текущее свидетельство x. .
o Доказательство — соответствует новым данным, которые не использовались при вычислении априорной вероятности.
o Апостериорная вероятность — вероятность метки класса Y с учетом наблюдаемых свидетельств.
o Вероятность — вероятность наблюдения x (размер опухоли — обучающие данные) с учетом метки класса Y
Примерами генеративных моделей являются наивные байесовские модели, байесовские сети, скрытые марковские модели (HMM) и т. д.
Дискриминативные модели, которые моделируют границу принятия решений между ярлыками классов (Malign/Benign), напрямую предполагая некоторую функциональную форму условного распределения P(Y | x). Параметры P(Y | x) или граница решения оцениваются непосредственно из обучающих данных на основе ошибки/потери при прогнозировании.
Примеры дискриминационных моделей: логистическая регрессия, деревья решений, машина опорных векторов (SVM) и т. д.
Структура модели
На графике выше показана разница в структуре обеих моделей. Кружки представляют собой переменную (переменные), а направление линий указывает, какие вероятности мы можем вывести.
Сравнение генеративного и дискриминационного подходов
Получение лучшего из обоих миров
Возможен ли принципиальный подход сочетания генеративного и дискриминативного подходов не только для создания более удовлетворительной основы для разработки новых моделей, но и для получения практической пользы. Одним из таких примеров, где используются оба этих подхода, являются генеративно-состязательные сети (GAN). Мы подробно рассмотрим модели GAN в другом посте, но для общего понимания подхода к построению модели генеративно-состязательная сеть (GAN) состоит из двух частей:
· генератор учится генерировать правдоподобные данные. Сгенерированные экземпляры становятся отрицательными обучающими примерами для дискриминатора.
· Дискриминатор учится отличать поддельные данные генератора от реальных данных. Дискриминатор наказывает генератор за неправдоподобные результаты.
Когда начинается обучение, генератор выдает заведомо фейковые данные, и дискриминатор быстро учится идентифицировать их как фейковые. По мере того, как генератор улучшается с обучением, производительность дискриминатора ухудшается, потому что дискриминатор не может легко отличить настоящее от подделки.
Несколько приложений GANS: генерация изображений, генерация фронтального вида лица, синтез текста в изображение и т. Д.
Вывод
Выбор алгоритма для построения модели зависит от различных факторов, таких как вариант использования, доступность обучающих данных, вычислительные ресурсы, хранилище и т. д. Прежде чем пытаться решить проблему, необходимо получить представление о различных подходах к построению модели. Лучшее решение, как правило, самое простое.