Обучение с подкреплением - это подход к машинному обучению, вдохновленный бихевиористской психологией. Обучение с подкреплением отличается от других подходов к машинному обучению тем, что алгоритму явно не сообщается, как выполнять задачу, а решает проблему самостоятельно.

Обучение с подкреплением отличается от обучения с учителем тем, что при обучении с учителем данные обучения содержат ключ ответа, поэтому модель обучается с правильным ответом, тогда как при обучении с подкреплением ответа нет, но агент подкрепления решает, что с ним делать. выполнить поставленную задачу. При отсутствии данных для обучения он обязательно извлечет уроки из своего опыта.

Как агент, он взаимодействует со своей средой и получает состояние вознаграждения в зависимости от того, как он работает. И наоборот, агент получает штраф за некорректную работу. Агент с течением времени принимает решения, чтобы максимизировать свое вознаграждение и минимизировать штраф, используя динамическое программирование.

Типы обучения с подкреплением

  • Позитивное обучение с подкреплением определяется как событие, которое происходит из-за определенного поведения, увеличивает силу и частоту поведения. В этом типе обучения с подкреплением алгоритм получает вознаграждение за определенный результат. Другими словами, здесь мы стараемся добавить вознаграждение за каждый хороший результат, чтобы увеличить вероятность хорошего результата.
  • Обучение с отрицательным подкреплением определяется как усиление поведения из-за того, что отрицательное состояние прекращено или предотвращено. В этом типе мы стараемся убрать что-то негативное, чтобы повысить производительность.

Преимущества и недостатки обучения с подкреплением

Преимущества

  • Он может решать сложные задачи более высокого порядка.
  • Благодаря способности к обучению его можно использовать с нейронными сетями.
  • Поскольку модель постоянно учится, ошибка, сделанная ранее, вряд ли произойдет в будущем.
  • Когда дело доходит до создания симуляторов, обнаружения объектов в автоматических автомобилях, роботах и ​​т. Д., Обучение с подкреплением играет большую роль в моделях.
  • Даже при отсутствии обучающих данных он будет учиться на опыте обработки обучающих данных.

Недостатки

  • Использование моделей обучения с подкреплением для решения более простых задач будет некорректным. Причина в том, что модели обычно решают сложные проблемы. Мы будем тратить ненужную вычислительную мощность и пространство, используя их для решения более простых задач.
  • Нам нужно много данных, чтобы питать модель для вычислений. Модели обучения с подкреплением требуют большого количества обучающих данных для получения точных результатов. Это требует времени и большой вычислительной мощности.
  • Когда дело доходит до построения моделей на реальных примерах, стоимость обслуживания очень высока. Как и в случае создания беспилотных транспортных средств, роботов, нам потребуется серьезное обслуживание как аппаратного, так и программного обеспечения.