Публикации по теме 'reinforcement-learning'


Глубокое обучение для промышленных роботов
Вступление 13 июля 2019 года мы с моим коллегой Ли посетили краткосрочную программу в Университете Цинхуа , чтобы научиться применять методы глубокого обучения для промышленных роботов. Мы инженеры в PIX Moving и стремимся применить машинное обучение для улучшения процесса аддитивное производство проволочной дуги (WAAM) . В этом посте записано наше обучение. Рассуждение В своей основной форме WAAM - это применение технологии роботизированной сварки для металлической 3D-печати...

Обучение с подкреплением: введение и руководство по его основам
Введение Обучение с подкреплением (RL) — это область машинного обучения, которая занимается проблемой обучения агента обучению и принятию решений, взаимодействуя с окружающей средой. Агент учится на своих действиях и опыте, получая обратную связь в виде вознаграждений или штрафов, что позволяет ему со временем улучшать свою работу. В этом сообщении блога мы рассмотрим основы обучения с подкреплением, его основные термины и погрузимся в его ключевые понятия, такие как политика ,..

Введение в проблему многоруких бандитов и ее приложения
В чем проблема многоруких бандитов? Название Multi-Armed Bandit (MAB) происходит из примера, когда игрок имеет возможность играть на игровых автоматах n , и каждый автомат предоставляет случайную награду из вероятности распределение, характерное для этой машины и неизвестное игроку. Теперь, чтобы максимизировать свой заработок, он должен решить, на какой машине играть, сколько раз играть на каждой машине и в каком порядке играть на них. В большинстве реальных случаев игрок теряет..

Искусственный интеллект (2) — Обучение с учителем, обучение без учителя и обучение с подкреплением
Искусственный интеллект (2) — обучение с учителем, обучение без учителя и обучение с подкреплением В машинном обучении используется ряд алгоритмов для решения сложных задач. Каждый из этих алгоритмов можно отнести к определенной категории. Различные типы алгоритмов машинного обучения: Контролируемое обучение Обучение без учителя Обучение с подкреплением Теперь давайте посмотрим на определения каждого из этих методов обучения. Обучение с учителем использует..

Когда стохастическая политика лучше детерминированной
Почему мы позволяем случайности диктовать наш выбор действий в обучении с подкреплением Если вы привыкли к детерминированным политикам принятия решений (например, как в Глубоком Q-обучении ), необходимость и использование стохастических политик могут ускользнуть от вас. В конце концов, детерминированные политики предлагают удобное отображение состояния-действия π:s ↦ a , в идеале даже оптимальное отображение (то есть, если все уравнения Беллмана выучены в совершенстве )...

Проксимальная оптимизация политики (PPO) с помощью TensorFlow 2.x
Понимание алгоритма обучения с подкреплением PPO и его реализация с помощью TensorFlow 2.x В этой статье мы попытаемся понять алгоритм проксимальной оптимизации политики Open-AI для обучения с подкреплением. После некоторой базовой теории мы будем реализовывать PPO с TensorFlow 2.x. Прежде чем вы начнете читать дальше, я бы порекомендовал вам взглянуть на метод Actor-Critic здесь , так как мы будем изменять код этой статьи для PPO. Почему ППО? Нестабильное обновление политики :..

AI Economist подводит итоги коммунизма
AI Economist - это проект, целью которого является исследование динамики экономики с помощью обучения с подкреплением (RL). После краткого знакомства с AI Economist я покажу свои эксперименты, оценивающие некоторые сценарии, такие как коммунизм и т. Д. Что такое экономист по ИИ? Что такое AI Economist? , это хорошо описано в их сообщении в блоге . Итак, я хотел бы сосредоточиться на объяснении этого с точки зрения обучения агентов RL. Авторы опубликовали Gym-style API . На основе..