Публикации по теме 'reinforcement-learning'


Время, когда я разработал нейронные сети, чтобы научиться играть в видеоигры
В основном нетехнический обзор моей магистерской диссертации и размышления о ней: «Эволюционные алгоритмы приближения к оптимальной политике обучения с подкреплением». Преамбула (или как я наткнулся на генетические алгоритмы и обучение с подкреплением) Странно думать, что в начале 2017 года мои знания о машинном обучении в основном ограничивались методами, используемыми в экономике: GLM, анализом временных рядов и различными статистическими показателями. Цель экономики состоит в том,..

DDPG-II Рука Бога, будь благословенна (посвящается всем, кто заботится об обучении с подкреплением)!
Из-за первоначального непонимания логарифмической вероятности политики для пространства непрерывного действия (для дискретной потери энтропии нужно иметь вероятность категорий или отдельных действий, но для пространства непрерывного действия это может привести к бесконечным категориям) я обнаружил и склонился к градиенту глубокой детерминированной политики. Будучи медленно обучающимся, я не мог понять всего, что написано в последних статьях PPO, SAC, A2C, поэтому я назвал эту версию DDPG..

Понимание минимизации эмпирического риска (часть 2)
Самоадаптивное обучение: помимо эмпирической минимизации рисков ( arXiv ) Автор: Лан Хуан , Чао Чжан , Хунъян Чжан Аннотация: мы предлагаем самоадаптирующееся обучение — новый алгоритм обучения, который динамически исправляет проблемные метки обучения с помощью прогнозов модели без дополнительных вычислительных затрат — для улучшения обобщения глубокого обучения для потенциально поврежденных обучающих данных. Эта проблема имеет решающее значение для надежного обучения на..

Решение проблемы с Leetcode с использованием обучения с подкреплением
Практическое введение в обучение с подкреплением Недавно я наткнулся на вопрос по литкоду: Кратчайший путь в сетке с устранением препятствий . Задача Кратчайший путь в сетке с устранением препятствий включает в себя поиск кратчайшего пути от начальной ячейки до целевой ячейки в двумерной сетке, содержащей препятствия, где вам разрешено устранить до k препятствий, лежащих на пути. Сетка представлена ​​двумерным массивом m x n , состоящим из 0 (пустые ячейки) и 1 (ячейки с..

Обучение с подкреплением в науке о данных
Еще один метод, используемый в машинном обучении. В последние несколько недель я занимался исследованием Линейная регрессия в науке о данных . На этой неделе, однако, я хотел изменить ситуацию. Мы немного знаем о методах обучения с учителем и о методах обучения без учителя, но мы не говорили о другом типе обучения: обучении с подкреплением. Это тип обучения, который не требует контроля, как и обучение без учителя, но также обладает уникальными качествами. Прежде чем мы углубимся в..

Быстрое обучение в глубоком обучении
Обобщающая способность моделей глубокого обучения 1. Понятие быстрого обучения и его влияние на производительность моделей глубокого обучения. Согласно авторам статьи «Быстрое обучение в глубоких нейронных сетях» [ссылка 1], «Ярлыки — это правила принятия решений, которые хорошо работают на стандартных тестах, но не могут быть перенесены в более сложные условия тестирования, такие как сценарии реального мира». Таксономия правил принятия решений Нейронные сети или..

Беглый взгляд на µniverse
Проработав пару недель с тренажерным залом и вселенной OpenAI , я все еще очень рад открыть и изучить все возможности для обучения агентов RL с использованием этих фреймворков. К сожалению, кажется, что нет огромного сообщества, активно использующего Universe. Я не знаю, связано ли это с конкретной темой RL или проблемами, возникающими при работе с Universe из-за его специфической архитектуры, как упоминалось, например. от Алекс Николь : … самая большая проблема с Universe..