Публикации по теме 'reinforcement-learning'


Простой алгоритм обучения с подкреплением, который играет в игру такси OpenAI
С самого начала компьютеров было мечтой, чтобы они учились сами . Разработать машину, которая могла бы научиться выполнять задачу лучше, чем любой человек, не давая ей никакой информации, кроме цели. Алан Тьюринг, один из отцов современных вычислений, задумался о том, как этого можно достичь. Он написал об этом статью под названием Интеллектуальные машины , в которой даже обсудил концепцию сети узлов, которую мы сегодня назвали бы нейронной сетью. И вот мы, наконец, сделали это, мы..

Полный словарь обучения с подкреплением
Терминология обучения с подкреплением, от А до Я Когда я начинаю изучать новый для меня предмет, мне труднее всего справиться с его новой терминологией. В каждой области есть множество терминов и определений, которые совершенно непонятны постороннему и могут затруднить первый шаг новичка. Когда я сделал свой первый шаг в мир обучения с подкреплением, меня поразили новые термины, которые появлялись на каждой второй строчке, и меня всегда удивляло, как за этими сложными словами стояли..

Введение в обучение с подкреплением (RL)
‹Базовый 1: MDP› Эта статья основана на корейской книге " Learning RL with Python and Keras " и переведенной на корейский язык книге " RL and DRL (Deep RL) using PyTorch ". сильный>». Извините за нечеткие математические формулы(Medium не поддерживает Latex для математики. 😢) Обучение с подкреплением — это тип машинного обучения, который взаимодействует с окружающей средой и обучается самостоятельно. Из-за характеристики самообучения без супервизора проблемы, которые..

Краткая история пивной игры
Краткая история пивной игры автор Ларри Снайдер Я очень рад предстоящему выпуску игры Opex Analytics Beer Game - она ​​будет запущена примерно через три недели! Хотя версия Opex совершенно новая и использует передовые алгоритмы и искусственный интеллект, у самой Beer Game довольно обширная история. Я узнал все об этом во время разработки версии Opex, и, чтобы подвести вас к выпуску, я поделюсь с вами краткой историей. Итак… Что такое пивная игра? Пивная игра - это..

N-шаговый метод TD
Объединение SARSA и Monte Carlo Simulation В предыдущих публикациях мы вместе исследовали некоторые общие методы обучения с подкреплением, в том числе SARSA , обновления политики, где значение Q обновляется в зависимости от траектории, которую выбирает агент, и метод Монте-Карло , который обычно используется для оценки политики. В этом посте мы вспомните SARSA и метод Монте-Карло объясните, почему эти два метода могут быть объединены (по сути, это один и тот же метод с разными..

Управление портфелем на основе искусственного интеллекта  — «Выводы из избранных статей на NeurIPS…
В последнее время наблюдается экспоненциальный рост применения искусственного интеллекта и машинного обучения в финансовой сфере. Этот пост академически легче, чем предыдущие публикации , и призван предложить общий обзор современного состояния исследований в области искусственного интеллекта, которые могут оказать потенциальное влияние на финансовые области, такие как торговля и управление портфелем. Ключевым выводом должен быть список проблем, характерных для приложений ИИ, с..

Модельно-ориентированное управление с использованием нейронной сети: пример из практики
Моделирование управления механической системой с использованием алгоритма прогнозирующего управления на основе нейронной сети Техника автоматизации и управления играет решающую роль в отрасли. Область применения варьируется от робототехники, производства, технологических систем, медицины, финансов, энергоменеджмента и даже до эпидемиологии . В последние десятилетия было разработано множество интеллектуальных методов управления. В этой статье я покажу вам, как совместить..