Публикации по теме 'monte-carlo-method'


Методы Монте-Карло для обучения с подкреплением
Введение Существует три основных класса методов для решения задач обучения с подкреплением: динамическое программирование , методы Монте-Карло и обучение с разницей во времени . Все эти методы решают полную версию проблемы, включая задержку вознаграждения. Каждый класс методов имеет свои сильные и слабые стороны. Методы динамического программирования хорошо разработаны математически, но требуют полной и точной модели среды. Методы Монте-Карло не требуют модели и..

Методы Монте-Карло в обучении с подкреплением - Часть 1, методы, основанные на политике
Эта и следующая статьи предназначены для продолжения серии Обучение с подкреплением и должны привести последовательность статей от изначально очень теоретических тем к все большему количеству практических приложений и алгоритмов. Последние две статьи касались введения Марковского процесса принятия решений и объяснения политик и функций ценностей . В следующих двух статьях я хотел бы объяснить методы Монте-Карло (MC) и показать, как их использовать для оценки функции..

Визуализация полного масштаба проклятия размерности
Использование метода Монте-Карло для визуализации поведения наблюдений с очень большим количеством признаков. Подумайте о наборе данных, состоящем из некоторого количества наблюдений, каждое из которых имеет N признаков. Если вы преобразуете все функции в числовое представление, вы можете сказать, что каждое наблюдение является точкой в ​​N-мерном пространстве. Когда N низкое, отношения между точками такие, какие вы интуитивно ожидаете. Но иногда N становится очень большим — это может..

Монте-Карло Обучение
Монте-Карло Обучение Обучение с подкреплением по методу Монте-Карло В этой статье я расскажу о методе обучения с подкреплением Монте-Карло. Я кратко рассмотрел метод динамического программирования (итерация значений и итерация политики) в предыдущей статье. В динамическом программировании нам нужна модель (агент знает переход MDP и вознаграждения), а агент выполняет планирование (как только модель становится доступной, агент должен планировать свои действия в каждом состоянии)...

Прогнозирование исхода английской премьер-лиги с помощью метода Монте-Карло (R)
Вступление Очень люблю футбол и иногда делаю ставки на матчи. В настоящее время букмекерские конторы предлагают множество рынков, в основном, вы можете делать ставки практически на все, от « Кто будет следующим президентом США ?» До « Какая страна выиграет следующее Евровидение. песенный конкурс? 'Но спортивные мероприятия, наверное, по-прежнему самые популярные, особенно футбол. Еще две вещи, которые мне нравятся, - это программирование и предсказания. У меня также есть некоторый..