Публикации по теме 'markov-decision-process'


Марковский процесс принятия решений и методы динамического программирования для RL
Марковский процесс принятия решений RL — это набор методов, которые учатся оптимально вести себя в среде, тогда как Марковские процессы принятия решений (MDP) — это структура, используемая для математической формулировки задач RL. В задачах RL все состояния обладают «марковским» свойством, относящимся к тому факту, что будущее состояние зависит только от текущего состояния: Или, другими словами, вся информация о будущем состоянии заключена в текущем состоянии. В задачах RL..

Упрощенное руководство по обучению с подкреплением — 01
Подобно машинному обучению, обучение с подкреплением также является дисциплиной в области ИИ, которая исследуется десятилетиями, но совсем недавно она привлекла внимание бизнеса и стала доступной для практиков по всему миру. Самая захватывающая часть обучения с подкреплением заключается в том, что оно ведет себя как человек, с точки зрения обучения на основе опыта и применения прошлого опыта для динамического решения новой ситуации. Подражание человеческому поведению математически, а..

Марковские процессы принятия решений и уравнения Беллмана
В предыдущем посте мы погрузились в мир обучения с подкреплением и узнали о некоторых очень простых, но важных терминах в этой области. Сегодня я хотел бы обсудить, как мы можем сформулировать задачу как проблему RL, а также обсудить уравнения Беллмана. Уравнения Беллмана абсолютно необходимы при попытке решить задачи RL. Поэтому я был особенно осторожен в своем письме на эту тему. Типы задач RL Все задачи RL можно разделить на два типа: 1. Эпизодические задачи: Говоря о примере..

1-Конечные марковские процессы принятия решений
1-Конечные марковские процессы принятия решений В этой статье мы рассмотрим принцип и свойства марковских процессов принятия решений в обучении с подкреплением. Свойства цепи Маркова: Цепь Маркова — это специальный стохастический процесс, целью которого является предсказание будущего состояния процесса на основе предыдущих состояний. Цепи Маркова можно различать по разным порядкам. Под порядком подразумевается, сколько предыдущих состояний было использовано для предсказания..

Марковский процесс принятия решений: итерация значения с реализацией кода
В сегодняшней статье мы сосредоточимся на итерации ценности MDP на примере мира сетки из книги Artificial Intelligence A Modern Approach Стюарта Рассела и Питера Норвига. Код в этой истории является частью нашего проекта MAD с нуля , где MAD означает машинное обучение, искусственный интеллект и наука о данных . Полный код, использованный в этой истории, можно найти в этом репозитории: https://github.com/clumsyhandyman/mad-from-scratch . Оглавление: Пересмотреть итерацию..

Обучение с подкреплением — Урок 1: Основы обучения с подкреплением
Проблема обучения с подкреплением Давайте представим, что вы впервые в новом городе, и ваша цель — найти лучший ресторан. У вас нет карты или интернета. Как бы вы подошли к поиску лучшего ресторана? Вы, вероятно, начнете исследовать город, пробовать разные рестораны и делать мысленные заметки о качестве каждого из них. Со временем вы начнете понимать, где расположены хорошие рестораны. Это аналогично проблеме обучения с подкреплением, когда агент (в данном случае вы) попадает в..

Марковский процесс принятия решений: итерация политики с реализацией кода
В сегодняшней статье мы сосредоточимся на итерации политики MDP. Мы по-прежнему используем пример мира сетки из книги Стюарта Рассела и Питера Норвига Artificial Intelligence A Modern Approach . Код в этой истории является частью нашего проекта MAD с нуля , где MAD означает машинное обучение, искусственный интеллект и наука о данных . Полный код, использованный в этой истории, можно найти в этом репозитории: https://github.com/clumsyhandyman/mad-from-scratch . Оглавление:..