Публикации по теме 'reinforcement-learning'


Разработка обучения с подкреплением на основе тестов - глубокий детерминированный градиент политики
Прочитав заголовок сообщения, вы, вероятно, спросите себя: WTF? Эта статья посвящена одному: реализации алгоритма глубокого детерминированного градиента политики (DDPG). Что отличает его от других сообщений и руководств в блогах, так это то, как мы собираемся подойти к реализации. Прежде чем мы начнем Работа над этой публикацией еще не завершена. Я решил опубликовать пост до полного завершения в надежде получить какие-либо отзывы, которые помогут изменить структуру этого поста...

Мультимодальные методы: подписи к изображениям (от перевода к вниманию)
Недавнее пересечение компьютерного зрения и обработки естественного языка (часть вторая) Это вторая часть нашей последней серии публикаций, в которой рассматриваются некоторые пересечения между компьютерным зрением (CV) и обработкой естественного языка (NLP). Читателям предлагается просмотреть статью на нашем веб-сайте для лучшего восприятия: http://www.themtank.org/multi-modal-methods Часть первая: визуальное распознавание речи (чтение по губам) Часть вторая: подписи к..

Об интуиции, лежащей в основе глубокого обучения и GAN - к фундаментальному пониманию
Генеративная состязательная сеть (GAN) состоит из двух отдельных сетей - генератора и дискриминатора. Это ставит проблему обучения без учителя как игру между ними. В этом посте мы увидим, почему GAN обладают таким большим потенциалом, и представим GAN как боксерский поединок между двумя противниками. Интуиция за глубоким обучением Глубокое обучение, как известно, вдохновлено биологией, и многие из основных концепций глубокого обучения интуитивно понятны и основаны на реальности...

Случайное введение в обучение с подкреплением
Серия AWS DeepRacer Случайное введение в обучение с подкреплением Интуитивное объяснение того, что такое обучение с подкреплением Прежде всего, я хочу поблагодарить Jakarta Machine Learning и AWS за предоставленную мне возможность присоединиться к учебному лагерю AWS DeepRacer . Я обязательно поделюсь своим опытом обучения во время этого учебного лагеря в моих статьях. Итак, следите за обновлениями, чтобы узнать больше о моем опыте в учебном лагере! В этом учебном лагере я и..

Основы обучения с подкреплением (с примером)
Машинное обучение предоставило различные формулировки для решения проблем. Обучение с подкреплением — это третья парадигма машинного обучения после обучения с учителем и без учителя. Здесь цель состоит в том, чтобы развиваться и учиться на ошибках, и, в отличие от двух других парадигм, данные для этого в основном развиваются по мере их появления. Цитируя Kaelbling, LP в его обзорной статье 1996 года (Reinforcement Learning: A Survey): Обучение с подкреплением (RL) — это обучение..

Учебник по обучению с причинным подкреплением
В этой серии публикаций я разобью развивающуюся область обучения с подкреплением причинно-следственной связи (CRL) на удобоваримые фрагменты блога. Это захватывающая область, которую возглавляют, в частности, Элиас Барейнбойм и Джудея Перл. Я постараюсь представить это таким образом, чтобы удовлетворить тех, кто жаждет некоторых математических подробностей, а также попытаться нарисовать более широкую картину того, почему это в целом полезно и важно. Каждый из этих постов в блоге будет..

Обучение с глубоким подкреплением на практике, играя в Doom - Часть 1: Начало работы
Обучение с подкреплением (RL) сейчас является горячей темой благодаря беспилотным автомобилям и (супер) человеческой производительности в таких играх, как Go или Dota. Однако подход к предмету может быть пугающим. Я давно хотел попробовать, но не знал, с чего начать. После пары начальных безрезультатных попыток я начал получать положительные результаты, получал удовольствие и многому научился в процессе. С правильными инструментами и ресурсами это на самом деле намного проще, чем кажется...