Публикации по теме 'reinforcement-learning'
Простой алгоритм обучения с подкреплением, который играет в игру такси OpenAI
С самого начала компьютеров было мечтой, чтобы они учились сами . Разработать машину, которая могла бы научиться выполнять задачу лучше, чем любой человек, не давая ей никакой информации, кроме цели. Алан Тьюринг, один из отцов современных вычислений, задумался о том, как этого можно достичь. Он написал об этом статью под названием Интеллектуальные машины , в которой даже обсудил концепцию сети узлов, которую мы сегодня назвали бы нейронной сетью.
И вот мы, наконец, сделали это, мы..
Полный словарь обучения с подкреплением
Терминология обучения с подкреплением, от А до Я
Когда я начинаю изучать новый для меня предмет, мне труднее всего справиться с его новой терминологией. В каждой области есть множество терминов и определений, которые совершенно непонятны постороннему и могут затруднить первый шаг новичка.
Когда я сделал свой первый шаг в мир обучения с подкреплением, меня поразили новые термины, которые появлялись на каждой второй строчке, и меня всегда удивляло, как за этими сложными словами стояли..
Введение в обучение с подкреплением (RL)
‹Базовый 1: MDP›
Эта статья основана на корейской книге " Learning RL with Python and Keras " и переведенной на корейский язык книге " RL and DRL (Deep RL) using PyTorch ". сильный>».
Извините за нечеткие математические формулы(Medium не поддерживает Latex для математики. 😢)
Обучение с подкреплением — это тип машинного обучения, который взаимодействует с окружающей средой и обучается самостоятельно. Из-за характеристики самообучения без супервизора проблемы, которые..
Краткая история пивной игры
Краткая история пивной игры
автор Ларри Снайдер
Я очень рад предстоящему выпуску игры Opex Analytics Beer Game - она будет запущена примерно через три недели! Хотя версия Opex совершенно новая и использует передовые алгоритмы и искусственный интеллект, у самой Beer Game довольно обширная история. Я узнал все об этом во время разработки версии Opex, и, чтобы подвести вас к выпуску, я поделюсь с вами краткой историей.
Итак… Что такое пивная игра?
Пивная игра - это..
N-шаговый метод TD
Объединение SARSA и Monte Carlo Simulation
В предыдущих публикациях мы вместе исследовали некоторые общие методы обучения с подкреплением, в том числе SARSA , обновления политики, где значение Q обновляется в зависимости от траектории, которую выбирает агент, и метод Монте-Карло , который обычно используется для оценки политики. В этом посте мы
вспомните SARSA и метод Монте-Карло объясните, почему эти два метода могут быть объединены (по сути, это один и тот же метод с разными..
Управление портфелем на основе искусственного интеллекта — «Выводы из избранных статей на NeurIPS…
В последнее время наблюдается экспоненциальный рост применения искусственного интеллекта и машинного обучения в финансовой сфере. Этот пост академически легче, чем предыдущие публикации , и призван предложить общий обзор современного состояния исследований в области искусственного интеллекта, которые могут оказать потенциальное влияние на финансовые области, такие как торговля и управление портфелем. Ключевым выводом должен быть список проблем, характерных для приложений ИИ, с..
Модельно-ориентированное управление с использованием нейронной сети: пример из практики
Моделирование управления механической системой с использованием алгоритма прогнозирующего управления на основе нейронной сети
Техника автоматизации и управления играет решающую роль в отрасли. Область применения варьируется от робототехники, производства, технологических систем, медицины, финансов, энергоменеджмента и даже до эпидемиологии . В последние десятилетия было разработано множество интеллектуальных методов управления. В этой статье я покажу вам, как совместить..