Публикации по теме 'reinforcement-learning'


Мета-обучение: учимся учиться
Алгоритм метаобучения, вероятно, изменится в будущем Мета-обучение: учимся учиться Обширные инновации в машинном обучении Чтобы успешно понять и изучить новые концепции или взгляды, люди обычно используют один пример в своем обычном месте. Они осваивают новые навыки намного быстрее и продуктивнее, чем машины; действие, воображение и объяснение. Например, дети, которые несколько раз видели бабочек и муравьев, могут быстро их узнать. Точно так же подростки, которые понимают,..

Глубокое обучение с подкреплением  — О чем весь этот шум?
Элли Люси, 15 марта 2019 г. Глубокое обучение с подкреплением (DRL) хвалят как потенциальный ответ на множество проблем, связанных с приложениями, которые ранее считались слишком сложными для машины. Решение этих проблем может привести к широкомасштабному прогрессу в различных отраслях, включая, помимо прочего, здравоохранение, робототехнику и финансы . Глубокое обучение с подкреплением представляет собой комбинацию как глубокого обучения, так и обучения с подкреплением, но как они..

Решатель лабиринта DQN
Вступление В моем предыдущем посте я показал, как построить Q-Learner для решения лабиринтов, используя метод Q-обучения на основе таблиц. В этом посте я покажу, как решить тот же лабиринт с помощью DQN (Deep Q-Learning). Код этого примера программы находится здесь . Обучение с подкреплением В задаче обучения с подкреплением агент взаимодействует с окружающей средой, оценивая ее состояние, предпринимая действия и получая награды. Цель состоит в том, чтобы узнать, какие действия..

Что такое обучение с подкреплением?
Даже если вы лишь эпизодически следите за темой ИИ и методами машинного обучения , я почти уверен, что вы встречали термин обучение с подкреплением . Это один из многих методов машинного обучения, но это единственный метод, который учится на положительных и отрицательных примерах — он в основном описывает метод, который создает модель для машины, чтобы обеспечить хороший результат на основе того, чему она научилась на положительных и отрицательных примерах. Примеры. Отличным..

Поразительное влияние обучения с подкреплением
Сегодня есть несколько технологий, которые, я думаю, существенно изменят ландшафт общества, каким мы его знаем. Если вы следите за моими публикациями, вы знаете, что я думаю, что технология блокчейн является хорошим соперником в этом аспекте. Я думаю, что CRISPR и генная терапия радикально изменят здравоохранение. Но, возможно, технология, в которой я больше всего уверен, - это «ИИ» (этот термин мне не очень нравится, но для целей этой статьи мы будем использовать его). В..

Адаптация агентов RL во время развертывания без вознаграждения
Адаптация агентов RL во время развертывания без вознаграждения Обзор статьи Н. Хансена и др. «Самоконтрольная адаптация политики во время развертывания». Одним большим ограничением агентов обучения с подкреплением на основе изображений является то, что их производительность сильно падает, если во входные данные вносятся значительные визуальные изменения от времени обучения до времени развертывания, даже если основная задача остается той же. Это не то, с чем мы, люди, так много..

Введение в обучение с подкреплением
Цель этого блога - дать понимание того, что такое обучение с подкреплением, на легком уровне, чтобы студенты / исследователи могли легко понять. Цель состоит не в том, чтобы представить строгое математическое обсуждение, требующее больших усилий со стороны читателя, а в том, чтобы представить концептуальную основу, которая могла бы служить введением в более тщательное изучение RL. Представлены основные принципы и методы, используемые для решения задач RL. Введение Для многих задач..