Публикации по теме 'reinforcement-learning'


Почему «блог» и почему сейчас?
Если вы спросите меня, зачем я это делаю, я отвечу: Концепция блога теперь «устарела», так зачем мне сейчас пытаться завести свой? Можно сказать, что я парень старой школы, единственной целью которого является изменить мир, бла-бла-бла… Нет, если серьезно, когда ты пишешь в свой личный блог, это как вести публичный дневник, где на тебя нет давления, и ты чувствуешь что вы можете писать все, что хотите, и это то, что я буду пытаться делать. Основная цель этого блога — инициатива..

Взаимосвязь обучения с подкреплением с обучением с учителем и без учителя
Обучение с подкреплением - это подраздел машинного обучения , которое решает проблему автоматического обучения оптимальным решениям с течением времени. В нашем меняющемся мире даже проблемы, которые выглядят как статические задачи ввода-вывода, могут стать динамическими, если вы будете учитывать время. Например, представьте, что вы решаете простую задачу контролируемого обучения классификации изображений домашних животных с двумя целевыми классами - собакой и кошкой. Вы собрали набор..

Sim2Real в робототехнике
Если у вас возникли проблемы с чтением статьи из-за платного доступа, воспользуйтесь ссылкой из моего личного блога здесь В этой статье содержится подробная информация о sim2real в роботизированных манипуляциях для следующих задач: Восприятие для манипуляции (DOPE / SD-MaskRCNN). Захватывающий (Dex-Net 3.0 / 6DOF GraspNet). Сквозные политики. (Контактные задачи манипуляции и манипуляции кубиком Рубика в руке) Методы управляемой рандомизации доменов (ADR / Sim-Opt). Разрыв в..

Простое обучение с подкреплением: Q-обучение
Введение Одним из моих любимых алгоритмов, которые я изучил во время прохождения курса обучения с подкреплением, было q-learning. Наверное, потому, что мне было легче всего понять и кодировать, но также потому, что это казалось логичным. В этом кратком посте я расскажу о q-Learning и предоставлю базовую основу для понимания алгоритма. Что такое q-Learning? Q-Learning - это алгоритм обучения с подкреплением вне политики, который пытается найти наилучшее действие, которое..

Обучение с подкреплением
Обучение с подкреплением — это подход к машинному обучению, который используется для целенаправленного обучения и принятия решений. Это вдохновлено поведенческой психологией. В этом подходе машина учится на прямом взаимодействии со своей средой, не завися от некоторого предопределенного помеченного набора данных. Целью обучения с подкреплением является то, что программный агент или машина могут учиться в среде, взаимодействуя с ней и получая вознаграждение за выполнение действий. При этом..

Соединение точек между MLE и RL для генерации последовательности
Соединение точек между MLE и RL для генерации последовательности Кросспостинг в Блоге Petuum . Генерация последовательности — повсеместная проблема во многих приложениях, таких как машинный перевод, суммирование текста, создание подписей к изображениям и т. д. Недавно мы опубликовали бумагу о единой перспективе множества хорошо используемых алгоритмов обучения для генерации последовательностей, основанных на обобщенной энтропийной регуляризованной формулировке оптимизации..

Решение непрерывного контроля с использованием глубокого обучения с подкреплением (методы, основанные на политике)
Введение Альтернативой классическим методам управления является глубокое обучение с подкреплением. Оба используются для решения задачи оптимизации динамических систем с целевым поведением. Классическая теория управления рассматривает поведение динамических систем с входными данными и то, как поведение можно настроить с помощью обратной связи. С другой стороны, подход глубокого RL полагается на агента, обученного политике, которая максимизирует измеримое вознаграждение. В..