Публикации по теме 'reinforcement-learning'


Готовы к обучению с подкреплением?
Все дело в будущем и технологиях Что такое обучение с подкреплением? Обучение с подкреплением является частью моделей машинного обучения для принятия последовательных решений. Он предпримет действия, которые могут максимизировать награду в любой ситуации. Агенты узнают, как достичь цели в своей среде, основываясь на вознаграждении за каждый шаг и принятом ими решении. В качестве примера рассмотрим шахматную игру, стратегическую настольную игру для двух игроков на клетчатой..

Может ли обучение с подкреплением помочь в достижении целей в области устойчивого развития?
Ранее в этом месяце у меня была возможность узнать больше о типе ИИ, называемом обучением с подкреплением, в рамках моего последнего проекта по курсу ИИ для международного развития в TechChange. Моей целью было понять, как можно использовать обучение с подкреплением, чтобы помочь нам достичь Целей устойчивого развития . Почему? Поскольку достижения в области ИИ продолжают расти ускоренными темпами, я считаю, что нам нужно делать больше, чтобы технологический прогресс приносил пользу..

Обучение с подкреплением: концепции Q-обучения
Сегодня мы сосредоточимся на разработке концепции Q-learning для решения MDP. О псевдокоде и реализации Q-learning на Python мы поговорим в нашей следующей статье. В предыдущих историях мы реализовали как обучаемый ADP на основе моделей , так и обучающийся MC без моделей . Теперь пришло время объединить преимущества обоих и перейти к Q-обучению. Оглавление: Концепции обучения в обучении с подкреплением Выборочное среднее против постоянного размера шага От игры к игре шаг за..

Обучение с подкреплением и теория игр
В последние годы методы машинного обучения и глубокого обучения демонстрируют выдающуюся производительность в различных областях, таких как обработка речи, прогнозирование, компьютерное зрение, машинный перевод, прогнозирование, робототехника и т. Д. Сущность различных концепций машинного обучения заключается в следующем: 1. Обучение с подкреплением Что делает RL уникальным? Обучение с подкреплением помогает машинам научиться принимать решения о действиях, которые соответствуют..

Анатомия пользовательской среды для RLlib
RLlib - это библиотека с открытым исходным кодом на Python, основанная на Ray , которая используется для обучения с подкреплением (RL). Эта статья представляет собой краткое руководство о том, как создавать пользовательские среды Тренажерный зал для использования с RLlib. Вы можете использовать это как отправную точку для представления собственных вариантов использования, которые нужно решить с помощью обучения с подкреплением (RL). Обратите внимание, что эта статья является..

Создайте индивидуальный тренажерный зал для Star Craft 2
В этом посте вы сможете узнать, что такое тренажерный зал и как создать индивидуальную тренажерный зал OpenAI с помощью PySC2 на карте DefeatZerglingsAndBanelings в качестве примера. В настоящее время доступно несколько фреймворков обучения с подкреплением (например, OpenAI Baselines, Stable Baselines, TFAgent, Dopamine, TensorForce и т. Д.) С различными плюсами и минусами. Однако, если вы хотите использовать любой из них в различных контекстах приложения, наиболее распространенным и..

Создайте ИИ для своей собственной настольной игры с нуля - Alpha Zero-Part 3
Реализация AI с алгоритмом AlphaZero для EvoPawness (временное имя), настольной игры по моей идее. Всем привет, добро пожаловать в третью часть создания ИИ на EvoPawness (временное имя) . В этой статье мы реализуем в игре алгоритм AlphaZero. Эта статья расскажет вам краткое описание AlphaZero и реализации AlphaZero, хотя и в упрощенном виде. Мы сделаем это шаг за шагом. Мы будем использовать некоторую терминологию, указанную в Части 1, такую ​​как функция результата, возможные..