Разница между генеративным, дискриминирующим и параметрическим непараметрическим алгоритмом / моделью

Здесь, в SO, я нашел следующее объяснение генеративных и дискриминативных алгоритмов:

«Генеративный алгоритм моделирует, как данные были сгенерированы, чтобы классифицировать сигнал. Он задает вопрос: исходя из моих предположений о генерации, какая категория с наибольшей вероятностью будет генерировать этот сигнал?

Дискриминантный алгоритм не заботится о том, как были сгенерированы данные, он просто классифицирует данный сигнал ».

И здесь является определение для параметрических и непараметрических алгоритмов

«Параметрические: данные берутся из распределения вероятностей определенной формы с точностью до неизвестных параметров. Непараметрические: данные берутся из определенного неопределенного распределения вероятностей».

Итак, по сути, можем ли мы сказать, что генеративные и параметрические алгоритмы предполагают лежащую в основе модель, тогда как дискриминирующие и непараметрические алгоритмы не предполагают никакой модели?

Благодарю.

machine-learning modeling generative

Zahid Hasan 23.05.2014 источник

Ответы (3)

arrow_upward
9
arrow_downward

Скажем, у вас есть входы X (вероятно, вектор) и выход Y (возможно, одномерные). Ваша цель - предсказать Y с учетом X.

Генеративный метод использует модель совместной вероятности p (X, Y) для определения P (Y | X). Таким образом, возможно, учитывая генеративную модель с известными параметрами, для совместной выборки из распределения p (X, Y) для создания новых выборок как входного X, так и выходного Y (обратите внимание, что они распределяются в соответствии с предполагаемым, а не истинным распределением, если вы сделай это). Сравните это с дискриминационными подходами, которые имеют только модель формы p (Y | X). Таким образом, получив вход X, они могут выбрать Y; однако они не могут пробовать новый сертификат X.

Оба предполагают модель. Однако дискриминационные подходы предполагают только модель того, как Y зависит от X, а не от X. Генеративные подходы моделируют и то, и другое. Таким образом, учитывая фиксированное количество параметров, вы можете возразить (и у многих есть), что их проще использовать для моделирования того, что вам небезразлично, p (Y | X), чем распределение X, поскольку вам всегда будет предоставлен X, для которого вы хотите знать Y.

Полезные ссылки: эта (очень короткая) статья Тома Минки. Эта основополагающая статья Эндрю Нг и Майкла Джордана.

Различие между параметрическими и непараметрическими моделями, вероятно, будет труднее понять, пока у вас не будет большего опыта работы со статистикой. Параметрическая модель имеет фиксированное и конечное количество параметров независимо от того, сколько точек данных наблюдается. Большинство вероятностных распределений являются параметрическими: рассмотрим переменную z, которая представляет собой рост людей, предположительно распределенных нормально. По мере того, как вы наблюдаете за большим количеством людей, ваша оценка параметров \ mu и \ sigma, среднего и стандартного отклонения z, становится более точной, но у вас по-прежнему есть только два параметра.

Напротив, количество параметров в непараметрической модели может расти с увеличением объема данных. Рассмотрим индуцированное распределение по росту людей, которое устанавливает нормальное распределение для каждой наблюдаемой выборки со средним значением, полученным в результате измерения, и фиксированным стандартным отклонением. Тогда предельное распределение по новым высотам представляет собой смесь нормальных распределений, и количество компонентов смеси увеличивается с каждой новой точкой данных. Это непараметрическая модель роста людей. Этот конкретный пример называется оценкой плотности ядра. Популярные (но более сложные) непараметрические модели включают гауссовские процессы для регрессии и процессы Дирихле.

Хорошее руководство по непараметрическим параметрам можно найти здесь, которое строит китайский ресторанный процесс как предел модели конечной смеси.

Ben Allison 23.05.2014

arrow_upward
1
arrow_downward

Не думаю, что ты сможешь это сказать. Например. линейная регрессия - это дискриминативный алгоритм: вы делаете предположение о P (Y | X), а затем оцениваете параметры непосредственно на основе данных, не делая никаких предположений о P (X) или P (X | Y), как если бы вы делали это в случай генеративных моделей. Но в то же время любой вывод, основанный на линейной регрессии, включая свойства параметров, является параметрической оценкой, поскольку есть предположение о поведении ненаблюдаемых ошибок.

DatamineR 23.05.2014

arrow_upward
0
arrow_downward

Здесь я говорю только о параметрических / непараметрических. Генеративный / дискриминационный - это отдельное понятие.

Непараметрическая модель означает, что вы не делаете никаких предположений относительно распределения ваших данных. Например, в реальном мире данные не будут на 100% соответствовать теоретическим распределениям, таким как Гауссово, бета, Пуассона, Вейбулла и т. Д. Эти распределения разработаны для наших нужд для моделирования данных.

С другой стороны, параметрические модели пытаются полностью объяснить наши данные с помощью параметров. На практике этот способ предпочтительнее, потому что он упрощает определение того, как модель должна вести себя в различных обстоятельствах (например, мы уже знаем производную / градиенты модели, что происходит, когда мы устанавливаем слишком высокую / слишком низкую скорость в Пуассоне. , так далее.)

Aerin 05.10.2017

Разница между генеративным, дискриминирующим и параметрическим непараметрическим алгоритмом / моделью

Ответы (3)

Вопросы по теме