Публикации по теме 'reinforcement-learning'


Узнайте, как машина учится
Машинное обучение и глубокое обучение Вы слышали о «ДЖАРВИСе» из фильмов Marvel, да, я говорю о сверхинтеллектуальном компьютере Тони Старка. Вы знаете, как он работает? Я не могу сказать, как он работает, но мы можем выяснить, каков нынешний способ заставить машину или систему учиться у самой себя. Машинное обучение — это часть искусственного интеллекта, в которой система может учиться на собственном опыте. для каждой задачи, которую выполняет система, она учится на ней. Что касается..

Откройте для себя искусственный интеллект и обучение с подкреплением: решение проблемы многорукого бандита…
Прежде чем приступить к изучению обучения с подкреплением, давайте разберемся с его поведением. Существует 4 основных стратегии машинного обучения. Контролируемое, неконтролируемое, полу-контролируемое обучение и обучение с подкреплением. Здесь я не пытаюсь углубляться в эти стратегии. Основное различие обучения с подкреплением и других стратегий обучения состоит в том, что алгоритмы обучения с подкреплением полностью динамичны и он собирает данные из окружающей среды (термин..

Модельное обучение с подкреплением с помощью Ray RLlib
Автор: Майкл Луо, Свен Мика TL; DR; До сих пор RLlib поддерживал модели: бесплатное обучение с подкреплением, эволюционные алгоритмы и алгоритмы планирования. В этом сообщении блога мы описываем успешное расширение RLlib до нового класса алгоритмов: «основанный на RL (MBRL)». Прочитав этот пост в блоге, вы узнаете, как работает MBRL, как проводить эксперименты с MBRL в различных средах и как мы использовали новый API распределенного выполнения RLlib для разработки этих новых..

Обучение с подкреплением, часть 1: настройка
Основная причина, по которой я хотел написать эту серию статей, заключалась в проблемах, с которыми я столкнулся, когда начинал обучение с подкреплением (RL). Несмотря на то, что есть много отличных ресурсов, мне пришлось просмотреть множество сайтов и статей, чтобы получить хорошее представление. Итак, я просто хотел немного упростить процесс. Обучение с подкреплением — это ветвь машинного обучения, в которой предполагается, что агент совершает действия, чтобы получить максимальное..

Краткое введение в обучение с подкреплением
Обучение с подкреплением - это аспект машинного обучения, при котором агент учится вести себя в среде, выполняя определенные действия и наблюдая за вознаграждениями / результатами, которые он получает от этих действий. Благодаря достижениям в области манипуляции руками робототехники, победе Google Deep Mind над профессиональным игроком Alpha Go и недавней победе команды OpenAI над профессиональным игроком в DOTA область обучения с подкреплением в последние годы действительно резко..

Обоснование неправильного обучения под контролем
Хорошо известная техника машинного обучения меняет теорию обучения с подкреплением и управления. Исторически сложилось так, что системы управления строились путем сначала аппроксимации управляемой системы (или «объекта») с использованием хорошо изученных моделей, таких как линейно-квадратичный регулятор (LQR) или табличный процесс принятия решений Маркова (MDP), а затем проектирование (почти) оптимальный регулятор для этой предполагаемой модели. Этот метод работает достаточно хорошо,..

Наводящий на размышления подход к выбору архитектуры нейронной сети посредством подкрепления…
Наводящий на размышления подход к выбору архитектуры нейронной сети посредством обучения с подкреплением, прекрасно объясненный Адрианом Кольером в его утреннем блоге. Поиск нейронной архитектуры с обучением с подкреплением Поиск нейронной архитектуры с обучением с подкреплением Zoph & Le, ICLR'17 Ранее в этом году мы просматривали блог «Крупномасштабные… . acolyer.org (вы должны подписаться!) Но хотя поиск использует кривизну..