Публикации по теме 'markov-decision-process'


Обучение с подкреплением: концепции Q-обучения
Сегодня мы сосредоточимся на разработке концепции Q-learning для решения MDP. О псевдокоде и реализации Q-learning на Python мы поговорим в нашей следующей статье. В предыдущих историях мы реализовали как обучаемый ADP на основе моделей , так и обучающийся MC без моделей . Теперь пришло время объединить преимущества обоих и перейти к Q-обучению. Оглавление: Концепции обучения в обучении с подкреплением Выборочное среднее против постоянного размера шага От игры к игре шаг за..

Глубокое обучение с подкреплением для автоматизированной торговли акциями
Использование обучения с подкреплением для торговли несколькими акциями через Python и OpenAI Gym | Представлено на ICAIF 2020 Примечание редакторам Data Science. Хотя мы разрешаем независимым авторам публиковать статьи в соответствии с нашими правилами и рекомендациями , мы не поддерживаем вклад каждого автора. Не следует полагаться на работы автора без консультации с профессионалами. См. Подробности в наших Условиях для читателей . Этот блог основан на нашей статье:..

Введение в обучение с подкреплением
Цель этого блога - дать понимание того, что такое обучение с подкреплением, на легком уровне, чтобы студенты / исследователи могли легко понять. Цель состоит не в том, чтобы представить строгое математическое обсуждение, требующее больших усилий со стороны читателя, а в том, чтобы представить концептуальную основу, которая могла бы служить введением в более тщательное изучение RL. Представлены основные принципы и методы, используемые для решения задач RL. Введение Для многих задач..

Понимание практического опыта обучения с подкреплением: марковские процессы принятия решений
Описание и понимание сложных сред, по одной диаграмме за раз Ссылки на серию: "Вступление" Многорукие бандиты | "Ноутбук" Нестационарный | "Ноутбук" Марковские процессы принятия решений | "Ноутбук" Уравнение Беллмана ч. 1 Добро пожаловать в нашу серию статей об обучении с подкреплением. Это четвертая запись, поэтому мы рекомендуем вам вернуться к предыдущим статьям, поскольку мы продолжим работу с ними. Ранее мы говорили о довольно простой ситуации под..

Постоянное введение в науку о данных для начинающих (часть 2A)
Примечание. Если вы не читали первую часть этого поста, это ссылка https://medium.com/@jimoh.abdullah/a-steady-introduction-to-data-science-for-beginners-2f86a1dfd6fa Алгоритмы машинного обучения Это алгоритмы, способные решить сложную задачу, они получают и анализируют входные данные для прогнозирования выходных значений в допустимом диапазоне. По мере поступления новых данных в эти алгоритмы они изучают и оптимизируют свои операции для повышения производительности, со..

Поиск причин: Марковский процесс принятия решений
Это был 1978 год. Математик, посвятивший годы изучению Марковского процесса принятия решений (MDP), посетил Рональда Ховарда и поинтересовался его областью применения. Рональд был профессором Стэнфорда, написавшим учебник по MDP в 1960-х годах. Рональд ответил, что знает очень мало практических применений MDP и нашел только одно в своей карьере, которое он считает успешным. Математик расстроился. Затем они обсудили проблему больших требований к данным, налагаемых MDP. Это был 1978 год,..