Публикации по теме 'reinforcement-learning'


Неформальное введение в обучение с подкреплением
Этот первоначальный пост в блоге призван дать грубый обзор ключевых концепций построения обучения с подкреплением (RL) без использования каких-либо формул. В результате не требуется никакой математической подготовки, и даже более того, ключевые понятия вводятся естественным путем, обращаясь к вашей интуиции. Хотя этот пост пытается быть полностью понятым без каких-либо предварительных математических знаний, следует отметить, что базовые навыки в области исчисления, теории вероятностей и..

Новые достижения в области Q-Learning🔧 часть 2 (Обучение с подкреплением)
В чем заключается концепция Q-Learning? Q-learning (Quality Learning)  – это нестандартная концепция обучения с подкреплением, которая позволяет найти наилучшее действие для текущего состояния. Это концепция обучения вне политики, потому что функция в этом типе обучения учится на действиях, которые лежат за пределами текущей заданной политики, которая состоит из принятия случайных действий, и поэтому концепция политики не требуется. Достижения в области Q-Learning Обучение..

Соответствие политике и нарушение политики Монте-Карло, с визуализацией
Поставляется с готовым к использованию кодом, включающим выборку по важности. В обучении с подкреплением мы используем либо оценки Монте-Карло (MC), либо обучение временной разнице (TD), чтобы установить «целевую» доходность на основе выборочных эпизодов. Оба подхода позволяют нам учиться в среде, в которой динамика перехода неизвестна, т. е. неизвестна p(s',r|s,a) . MC использует полную прибыль от пары состояние-действие до тех пор, пока не будет достигнуто конечное состояние. Он..

RL — Обзор алгоритмов обучения с подкреплением
Мы рассмотрели многие алгоритмы обучения с подкреплением (RL) в этой серии , например, методы Policy Gradient для задач MoJoCo, DQN для игр Atari и RL на основе моделей для управления роботами. Хотя многие алгоритмы вводятся с конкретными областями, такие связи могут быть просто унаследованными. В этой статье мы сделаем обзор этих алгоритмов и обсудим их общие недостатки при выборе методов для использования. Алгоритмы без моделей Алгоритмы RL можно разделить на основанные на..

Обучение с подкреплением, байесовская статистика и вероятность тензорного потока: детская игра - часть 2
В первой части мы исследовали, как можно использовать байесовскую статистику, чтобы сделать обучение с подкреплением менее требовательным к данным. Теперь мы реализуем эту идею на простом примере, используя Tensorflow Probability для реализации нашей модели. Камень ножницы Бумага Что касается игр, то сложно представить что-то проще камня, ножниц, бумаги. Несмотря на простоту, гугл по игре обнаруживает замечательную литературу. Мы хотим использовать байесовскую статистику для этой игры..

Обзор приложений многоруких бандитов в Lyft
От Sara Smoot , Alex Contryman и Yanqiao Wang Lyft представляет собой динамичную торговую площадку, соединяющую миллионы людей с надежной транспортной сетью. Чтобы предлагать высококачественные услуги как для гонщиков, так и для водителей, нам необходимо принимать комплексные решения по оптимизации почти в режиме реального времени. Окружающая среда может быстро меняться в зависимости от трафика, событий и погоды, что делает эти решения еще более сложными. Мы использовали..

Подход Эндрю Н.Г. к изучению машинного обучения
Эндрю Н.Г. начал свою карьеру в качестве преподавателя курса машинного обучения в колледже много лет назад. Тогда машинное обучение было довольно большим, но не таким большим, как сейчас. В течение года было, может быть, несколько сотен студентов. Сейчас этот же курс посещают более 1000 человек . Эндрю Нг был фантастическим инструктором, который управлял курсом, как хорошо смазанная машина, с подробными заданиями, материалами и лекциями. 👋👋 Hi there 👋👋 all my content is free for..