Публикации по теме 'reinforcement-learning'
Неформальное введение в обучение с подкреплением
Этот первоначальный пост в блоге призван дать грубый обзор ключевых концепций построения обучения с подкреплением (RL) без использования каких-либо формул. В результате не требуется никакой математической подготовки, и даже более того, ключевые понятия вводятся естественным путем, обращаясь к вашей интуиции. Хотя этот пост пытается быть полностью понятым без каких-либо предварительных математических знаний, следует отметить, что базовые навыки в области исчисления, теории вероятностей и..
Новые достижения в области Q-Learning🔧 часть 2 (Обучение с подкреплением)
В чем заключается концепция Q-Learning?
Q-learning (Quality Learning) – это нестандартная концепция обучения с подкреплением, которая позволяет найти наилучшее действие для текущего состояния. Это концепция обучения вне политики, потому что функция в этом типе обучения учится на действиях, которые лежат за пределами текущей заданной политики, которая состоит из принятия случайных действий, и поэтому концепция политики не требуется.
Достижения в области Q-Learning
Обучение..
Соответствие политике и нарушение политики Монте-Карло, с визуализацией
Поставляется с готовым к использованию кодом, включающим выборку по важности.
В обучении с подкреплением мы используем либо оценки Монте-Карло (MC), либо обучение временной разнице (TD), чтобы установить «целевую» доходность на основе выборочных эпизодов. Оба подхода позволяют нам учиться в среде, в которой динамика перехода неизвестна, т. е. неизвестна p(s',r|s,a) .
MC использует полную прибыль от пары состояние-действие до тех пор, пока не будет достигнуто конечное состояние. Он..
RL — Обзор алгоритмов обучения с подкреплением
Мы рассмотрели многие алгоритмы обучения с подкреплением (RL) в этой серии , например, методы Policy Gradient для задач MoJoCo, DQN для игр Atari и RL на основе моделей для управления роботами. Хотя многие алгоритмы вводятся с конкретными областями, такие связи могут быть просто унаследованными. В этой статье мы сделаем обзор этих алгоритмов и обсудим их общие недостатки при выборе методов для использования.
Алгоритмы без моделей
Алгоритмы RL можно разделить на основанные на..
Обучение с подкреплением, байесовская статистика и вероятность тензорного потока: детская игра - часть 2
В первой части мы исследовали, как можно использовать байесовскую статистику, чтобы сделать обучение с подкреплением менее требовательным к данным. Теперь мы реализуем эту идею на простом примере, используя Tensorflow Probability для реализации нашей модели.
Камень ножницы Бумага
Что касается игр, то сложно представить что-то проще камня, ножниц, бумаги. Несмотря на простоту, гугл по игре обнаруживает замечательную литературу. Мы хотим использовать байесовскую статистику для этой игры..
Обзор приложений многоруких бандитов в Lyft
От Sara Smoot , Alex Contryman и Yanqiao Wang
Lyft представляет собой динамичную торговую площадку, соединяющую миллионы людей с надежной транспортной сетью. Чтобы предлагать высококачественные услуги как для гонщиков, так и для водителей, нам необходимо принимать комплексные решения по оптимизации почти в режиме реального времени. Окружающая среда может быстро меняться в зависимости от трафика, событий и погоды, что делает эти решения еще более сложными.
Мы использовали..
Подход Эндрю Н.Г. к изучению машинного обучения
Эндрю Н.Г. начал свою карьеру в качестве преподавателя курса машинного обучения в колледже много лет назад.
Тогда машинное обучение было довольно большим, но не таким большим, как сейчас. В течение года было, может быть, несколько сотен студентов. Сейчас этот же курс посещают более 1000 человек .
Эндрю Нг был фантастическим инструктором, который управлял курсом, как хорошо смазанная машина, с подробными заданиями, материалами и лекциями.
👋👋 Hi there 👋👋 all my content is free for..