Масштабирование значений вознаграждения для улучшения глубокого обучения с подкреплением

Глубокое обучение с подкреплением включает использование нейронной сети в качестве универсального аппроксиматора функций для изучения функции ценности, которая сопоставляет пары состояние-действие с их ожидаемым будущим вознаграждением с учетом конкретной функции вознаграждения. Это можно сделать разными способами. Например, алгоритм, основанный на методе Монте-Карло, будет отслеживать общее вознаграждение за пары состояние-действие из полного эпизода, чтобы построить обучающие данные для нейронной сети. В качестве альтернативы, подход временной разницы будет использовать дополнительные вознаграждения за отдельные временные шаги и загружать предсказанные будущие вознаграждения из последней версии модели функции ценности. Однако независимо от выбранного подхода важно, чтобы нейронная сеть эффективно адаптировалась к данным для оптимизации алгоритма обучения. Есть много факторов, которые определяют способность нейронных сетей соответствовать обучающим данным. В этом посте мы рассмотрим, как масштабирование наших выходных данных может повлиять на скорость сходимости.

Масштабирование выходных данных модели

В целях обучения с подкреплением наша нейронная сеть учится моделировать функцию ценности, сопоставляя пары состояние-действие с будущими вознаграждениями. Вознаграждения представляют собой безразмерные скалярные значения, которые определяются предопределенной функцией вознаграждения. Агент подкрепления использует функцию значения нейронной сети для выбора действий, выбирая действие, связанное с наибольшим значением. Поскольку нейронная сеть выполняет регрессию по наблюдаемым парам состояние-действие и будущим значениям вознаграждения, веса сети оптимизируются для достижения минимальных потерь между выходными данными сети и выходными данными обучения. Однако будущие значения вознаграждения могут быть сколь угодно большими или малыми, в зависимости от того, как определена функция вознаграждения. Одна функция вознаграждения может давать среднее вознаграждение порядка одной сотой, в то время как другая может давать среднее вознаграждение порядка тысячи. Если масштаб выходных данных наших сетей значительно отличается от масштаба наших входных признаков, нейронная сеть будет вынуждена изучать несбалансированные распределения значений веса и смещения, что может препятствовать обучению. Чтобы бороться с этим, мы попробуем масштабировать наши выходные значения, чтобы они были единичными, прежде чем мы начнем обучение. Это не влияет на удобство использования нашей функции ценности, потому что действие, которое соответствует наибольшему будущему значению вознаграждения, будет одинаковым независимо от того, масштабируются значения или нет.

Эксперимент

Для своего эксперимента я использую те же данные и архитектуру нейронной сети, что и в моем предыдущем посте Обучение рекуррентных нейронных сетей на длинных последовательностях. Из-за разработанной мной функции вознаграждения будущие значения вознаграждения имеют средний порядок величины 100. Чтобы сравнить эффекты масштабирования выходных данных, одна модель обучается с исходными выходными данными, а вторая модель обучается с выходными данными, масштабированными до единицы. нормальный. Поскольку значения потерь пропорциональны величине выходных данных, кривые потерь при обучении нельзя сравнивать напрямую. Вместо этого мы рассмотрим точность каждой модели.

Вывод

Обучение нейронных сетей может быть затруднено, особенно в условиях глубокого обучения с подкреплением. Тщательное структурирование наших данных и архитектуры нейронной сети жизненно важно для получения максимальной отдачи от наших алгоритмов обучения с подкреплением. В этом эксперименте мы пришли к выводу, что масштабирование выходных данных модели перед обучением может значительно улучшить скорость сходимости и повысить окончательную точность нашей модели.

Масала.ИИ

Команда Mindboard Data Science исследует передовые технологии инновационными способами для предоставления оригинальных решений, включая линейку продуктов Masala.AI. Masala предоставляет службы оценки медиаконтента, такие как vRate, расширение для браузера, которое обнаруживает и блокирует контент для взрослых с настраиваемыми настройками чувствительности. Расширение браузера vRate доступно для загрузки в Интернет-магазине Chrome. Посетите www.masala.ai для получения дополнительной информации.

Масштабирование значений вознаграждения для улучшения глубокого обучения с подкреплением

Масштабирование выходных данных модели

Эксперимент

Вывод

Масала.ИИ

Вопросы по теме