Публикации по теме 'reinforcement-learning'
Глубокое обучение для промышленных роботов
Вступление
13 июля 2019 года мы с моим коллегой Ли посетили краткосрочную программу в Университете Цинхуа , чтобы научиться применять методы глубокого обучения для промышленных роботов. Мы инженеры в PIX Moving и стремимся применить машинное обучение для улучшения процесса аддитивное производство проволочной дуги (WAAM) . В этом посте записано наше обучение.
Рассуждение
В своей основной форме WAAM - это применение технологии роботизированной сварки для металлической 3D-печати...
Обучение с подкреплением: введение и руководство по его основам
Введение
Обучение с подкреплением (RL) — это область машинного обучения, которая занимается проблемой обучения агента обучению и принятию решений, взаимодействуя с окружающей средой. Агент учится на своих действиях и опыте, получая обратную связь в виде вознаграждений или штрафов, что позволяет ему со временем улучшать свою работу. В этом сообщении блога мы рассмотрим основы обучения с подкреплением, его основные термины и погрузимся в его ключевые понятия, такие как политика ,..
Введение в проблему многоруких бандитов и ее приложения
В чем проблема многоруких бандитов?
Название Multi-Armed Bandit (MAB) происходит из примера, когда игрок имеет возможность играть на игровых автоматах n , и каждый автомат предоставляет случайную награду из вероятности распределение, характерное для этой машины и неизвестное игроку.
Теперь, чтобы максимизировать свой заработок, он должен решить, на какой машине играть, сколько раз играть на каждой машине и в каком порядке играть на них. В большинстве реальных случаев игрок теряет..
Искусственный интеллект (2) — Обучение с учителем, обучение без учителя и обучение с подкреплением
Искусственный интеллект (2) — обучение с учителем, обучение без учителя и обучение с подкреплением
В машинном обучении используется ряд алгоритмов для решения сложных задач. Каждый из этих алгоритмов можно отнести к определенной категории. Различные типы алгоритмов машинного обучения:
Контролируемое обучение Обучение без учителя Обучение с подкреплением
Теперь давайте посмотрим на определения каждого из этих методов обучения. Обучение с учителем использует..
Когда стохастическая политика лучше детерминированной
Почему мы позволяем случайности диктовать наш выбор действий в обучении с подкреплением
Если вы привыкли к детерминированным политикам принятия решений (например, как в Глубоком Q-обучении ), необходимость и использование стохастических политик могут ускользнуть от вас. В конце концов, детерминированные политики предлагают удобное отображение состояния-действия π:s ↦ a , в идеале даже оптимальное отображение (то есть, если все уравнения Беллмана выучены в совершенстве )...
Проксимальная оптимизация политики (PPO) с помощью TensorFlow 2.x
Понимание алгоритма обучения с подкреплением PPO и его реализация с помощью TensorFlow 2.x
В этой статье мы попытаемся понять алгоритм проксимальной оптимизации политики Open-AI для обучения с подкреплением. После некоторой базовой теории мы будем реализовывать PPO с TensorFlow 2.x. Прежде чем вы начнете читать дальше, я бы порекомендовал вам взглянуть на метод Actor-Critic здесь , так как мы будем изменять код этой статьи для PPO.
Почему ППО?
Нестабильное обновление политики :..
AI Economist подводит итоги коммунизма
AI Economist - это проект, целью которого является исследование динамики экономики с помощью обучения с подкреплением (RL).
После краткого знакомства с AI Economist я покажу свои эксперименты, оценивающие некоторые сценарии, такие как коммунизм и т. Д.
Что такое экономист по ИИ?
Что такое AI Economist? , это хорошо описано в их сообщении в блоге . Итак, я хотел бы сосредоточиться на объяснении этого с точки зрения обучения агентов RL.
Авторы опубликовали Gym-style API . На основе..