Публикации по теме 'reinforcement-learning'


Исследовательские работы, основанные на обучении с подкреплением вне политики
Децентрализованное многоагентное обучение с подкреплением: метод вне политики ( arXiv ) Автор: Куо Ли , Цин-Шань Цзя Аннотация: в этой работе мы обсуждаем проблему децентрализованного многоагентного обучения с подкреплением (MARL). В наших настройках предполагается, что глобальное состояние, действие и вознаграждение полностью наблюдаемы, в то время как локальная политика защищена как конфиденциальная для каждого агента и, следовательно, не может быть передана другим...

Тренажерный зал Open-AI для выбора канала SD-WAN
Обучение с подкреплением успешно применяется в робототехнике и компьютерных играх. Его использование в сетевой области было обнадеживающим для решения проблемы распределения ресурсов в сетях беспроводного радиодоступа (Comsa et al.), Для оптимизации ресурсов WAN и DC (Xiu et al.), Для оптимизации маршрутизации в SDN (Stampa et al.) И список постоянно растет. В этой статье я попытался изучить идею экспериментов с обучением с подкреплением для решения очень актуальной проблемы в сетях..

Марковский процесс принятия решений: итерация политики с реализацией кода
В сегодняшней статье мы сосредоточимся на итерации политики MDP. Мы по-прежнему используем пример мира сетки из книги Стюарта Рассела и Питера Норвига Artificial Intelligence A Modern Approach . Код в этой истории является частью нашего проекта MAD с нуля , где MAD означает машинное обучение, искусственный интеллект и наука о данных . Полный код, использованный в этой истории, можно найти в этом репозитории: https://github.com/clumsyhandyman/mad-from-scratch . Оглавление:..

Обучение с подкреплением
Мысли и теория Обучение с подкреплением Обзор исторических, современных и будущих приложений этой специальной формы машинного обучения СОДЕРЖАНИЕ 1. Введение 2. Исторические события (до 1992 г.) - 2.1. Параллельные разработки - - 2.1.1. Обучение методом проб и ошибок - - 2.1.2. Проблема оптимального управления - - 2.1.3. Методы обучения по временной разнице - 2.2. Комбинированные разработки 3. Современные разработки (после 1992 г.) - 3.1...

Вознаграждения недостаточно для не склонного к риску обучения с подкреплением
Почему мы не можем решить проблему чувствительности к риску, просто правильно установив вознаграждение? TL;DR . Неприятие риска необходимо во многих приложениях RL (например, вождении, роботизированной хирургии и финансах). Некоторые модифицированные структуры RL учитывают риск (например, путем оптимизации меры риска доходности вместо ее ожидания), но создают новые алгоритмические проблемы. Вместо этого часто предлагается придерживаться старой и хорошей структуры RL и просто..

Адаптация критика мягких актеров для дискретных пространств действий
Как применить популярный алгоритм к новым задачам, изменив всего два уравнения С момента своего появления в 2018 году Soft Actor-Critic (SAC) зарекомендовал себя как один из самых популярных алгоритмов для глубокого обучения с подкреплением (DRL). Вы можете найти много отличных объяснений и руководств о том, как это работает в Интернете. Однако большинство из них предполагают непрерывное пространство действия. В этом посте я объясню и реализую необходимые адаптации для использования SAC..

Глубокое обучение с подкреплением для сборки кубика Рубика
Глубокое обучение с подкреплением для сборки кубика Рубика Введение Кубик Рубика — известная трехмерная головоломка. У обычного кубика Рубика шесть граней, на каждой из которых по девять цветных стикеров, и головоломка решена, когда каждая грань имеет единый цвет. Если считать один поворот на четверть (90°) за один ход и два поворота на четверть (поворот лицом ) за два хода, то лучшие алгоритмы, изобретенные человеком, могут решить любой экземпляр куба за 26 ходов . Моя цель — дать..