Обучение с подкреплением - это подход к машинному обучению, вдохновленный бихевиористской психологией. Обучение с подкреплением отличается от других подходов к машинному обучению тем, что алгоритму явно не сообщается, как выполнять задачу, а решает проблему самостоятельно.
Обучение с подкреплением отличается от обучения с учителем тем, что при обучении с учителем данные обучения содержат ключ ответа, поэтому модель обучается с правильным ответом, тогда как при обучении с подкреплением ответа нет, но агент подкрепления решает, что с ним делать. выполнить поставленную задачу. При отсутствии данных для обучения он обязательно извлечет уроки из своего опыта.
Как агент, он взаимодействует со своей средой и получает состояние вознаграждения в зависимости от того, как он работает. И наоборот, агент получает штраф за некорректную работу. Агент с течением времени принимает решения, чтобы максимизировать свое вознаграждение и минимизировать штраф, используя динамическое программирование.
Типы обучения с подкреплением
- Позитивное обучение с подкреплением определяется как событие, которое происходит из-за определенного поведения, увеличивает силу и частоту поведения. В этом типе обучения с подкреплением алгоритм получает вознаграждение за определенный результат. Другими словами, здесь мы стараемся добавить вознаграждение за каждый хороший результат, чтобы увеличить вероятность хорошего результата.
- Обучение с отрицательным подкреплением определяется как усиление поведения из-за того, что отрицательное состояние прекращено или предотвращено. В этом типе мы стараемся убрать что-то негативное, чтобы повысить производительность.
Преимущества и недостатки обучения с подкреплением
Преимущества
- Он может решать сложные задачи более высокого порядка.
- Благодаря способности к обучению его можно использовать с нейронными сетями.
- Поскольку модель постоянно учится, ошибка, сделанная ранее, вряд ли произойдет в будущем.
- Когда дело доходит до создания симуляторов, обнаружения объектов в автоматических автомобилях, роботах и т. Д., Обучение с подкреплением играет большую роль в моделях.
- Даже при отсутствии обучающих данных он будет учиться на опыте обработки обучающих данных.
Недостатки
- Использование моделей обучения с подкреплением для решения более простых задач будет некорректным. Причина в том, что модели обычно решают сложные проблемы. Мы будем тратить ненужную вычислительную мощность и пространство, используя их для решения более простых задач.
- Нам нужно много данных, чтобы питать модель для вычислений. Модели обучения с подкреплением требуют большого количества обучающих данных для получения точных результатов. Это требует времени и большой вычислительной мощности.
- Когда дело доходит до построения моделей на реальных примерах, стоимость обслуживания очень высока. Как и в случае создания беспилотных транспортных средств, роботов, нам потребуется серьезное обслуживание как аппаратного, так и программного обеспечения.