Публикации по теме 'reinforcement-learning'
Почему «блог» и почему сейчас?
Если вы спросите меня, зачем я это делаю, я отвечу:
Концепция блога теперь «устарела», так зачем мне сейчас пытаться завести свой? Можно сказать, что я парень старой школы, единственной целью которого является изменить мир, бла-бла-бла… Нет, если серьезно, когда ты пишешь в свой личный блог, это как вести публичный дневник, где на тебя нет давления, и ты чувствуешь что вы можете писать все, что хотите, и это то, что я буду пытаться делать.
Основная цель этого блога — инициатива..
Взаимосвязь обучения с подкреплением с обучением с учителем и без учителя
Обучение с подкреплением - это подраздел машинного обучения , которое решает проблему автоматического обучения оптимальным решениям с течением времени.
В нашем меняющемся мире даже проблемы, которые выглядят как статические задачи ввода-вывода, могут стать динамическими, если вы будете учитывать время. Например, представьте, что вы решаете простую задачу контролируемого обучения классификации изображений домашних животных с двумя целевыми классами - собакой и кошкой. Вы собрали набор..
Sim2Real в робототехнике
Если у вас возникли проблемы с чтением статьи из-за платного доступа, воспользуйтесь ссылкой из моего личного блога здесь
В этой статье содержится подробная информация о sim2real в роботизированных манипуляциях для следующих задач:
Восприятие для манипуляции (DOPE / SD-MaskRCNN). Захватывающий (Dex-Net 3.0 / 6DOF GraspNet). Сквозные политики. (Контактные задачи манипуляции и манипуляции кубиком Рубика в руке) Методы управляемой рандомизации доменов (ADR / Sim-Opt).
Разрыв в..
Простое обучение с подкреплением: Q-обучение
Введение
Одним из моих любимых алгоритмов, которые я изучил во время прохождения курса обучения с подкреплением, было q-learning. Наверное, потому, что мне было легче всего понять и кодировать, но также потому, что это казалось логичным. В этом кратком посте я расскажу о q-Learning и предоставлю базовую основу для понимания алгоритма.
Что такое q-Learning?
Q-Learning - это алгоритм обучения с подкреплением вне политики, который пытается найти наилучшее действие, которое..
Обучение с подкреплением
Обучение с подкреплением — это подход к машинному обучению, который используется для целенаправленного обучения и принятия решений. Это вдохновлено поведенческой психологией. В этом подходе машина учится на прямом взаимодействии со своей средой, не завися от некоторого предопределенного помеченного набора данных. Целью обучения с подкреплением является то, что программный агент или машина могут учиться в среде, взаимодействуя с ней и получая вознаграждение за выполнение действий. При этом..
Соединение точек между MLE и RL для генерации последовательности
Соединение точек между MLE и RL для генерации последовательности
Кросспостинг в Блоге Petuum .
Генерация последовательности — повсеместная проблема во многих приложениях, таких как машинный перевод, суммирование текста, создание подписей к изображениям и т. д.
Недавно мы опубликовали бумагу о единой перспективе множества хорошо используемых алгоритмов обучения для генерации последовательностей, основанных на обобщенной энтропийной регуляризованной формулировке оптимизации..
Решение непрерывного контроля с использованием глубокого обучения с подкреплением (методы, основанные на политике)
Введение
Альтернативой классическим методам управления является глубокое обучение с подкреплением. Оба используются для решения задачи оптимизации динамических систем с целевым поведением. Классическая теория управления рассматривает поведение динамических систем с входными данными и то, как поведение можно настроить с помощью обратной связи. С другой стороны, подход глубокого RL полагается на агента, обученного политике, которая максимизирует измеримое вознаграждение. В..