Публикации по теме 'reinforcement-learning'


Машинное обучение для начинающих
Мы все знаем, что объем данных увеличивается с очень высокой скоростью и разнообразием. Как мы используем эти данные для получения прибыли, теперь появился термин «машинное обучение», которое очень помогает в принятии решений и в рассуждении. Что такое машинное обучение? Машинное обучение - это разновидность искусственного интеллекта (ИИ). Это помогает анализировать и интерпретировать закономерности из данных. Это дает нашей системе возможность автоматически учиться совершенствоваться..

Глубокое обучение с подкреплением (DeepRL) для обобщения абстрактного текста стало проще (Урок 9)
Это учебное пособие является 9-м выпуском серии Упрощенное суммирование абстрактного текста , в этой серии мы рассмотрим новейшие подходы с использованием глубокого обучения для решения задачи суммирования абстрактного текста, весь код для этой серии можно найти здесь , который написан в тензорном потоке и без проблем работает в Google Colab, а данные находятся на диске Google, поэтому нет необходимости ни загружать данные локально, ни запускать код локально, так как все можно сделать..

Реализация DQNClipped и DQNReg со стабильными базовыми показателями
Для мини-проекта я решил реализовать в коде некоторые алгоритмы из статьи Развитие алгоритмов обучения с подкреплением . Основная идея статьи состоит в том, чтобы разработать новые алгоритмы обучения с подкреплением (RL), представляя алгоритм в виде графа, допуская различные эволюции и выбирая наиболее эффективные из них. Некоторые моменты из статьи для меня: Разработанные алгоритмы могут загружаться из известного алгоритма (например, Deep Q Network (DQN)) или с нуля. Алгоритмы..

Платформа Plug-and-play для персонализации внутриигрового и внутриигрового опыта
Платформа Plug-and-play для персонализации внутриигрового и внутриигрового опыта Модели персонализации и рекомендаций широко используются технологическими и развлекательными компаниями как высокоэффективные инструменты для улучшения цифрового опыта и оптимизации конверсии. Однако традиционный процесс разработки и производства моделей требует значительных инженерных усилий, что увеличивает время выхода на рынок и затраты на внедрение. В этой статье мы обсуждаем дизайн платформы..

Обучение ориентированного на цель чат-бота с помощью глубокого обучения с подкреплением - Часть I
Часть I: Введение и цикл обучения В этой серии мы собираемся узнать о целевых чат-ботах и ​​обучить одного с помощью глубокого обучения с подкреплением на Python! Все с нуля! Код для этой серии руководств можно найти здесь . Содержание серии Часть I: Введение и цикл обучения Часть II: Агент DQN Часть III: Отслеживание состояния диалога Часть IV: Имитатор пользователя и контроллер модели ошибок Часть V: Запуск агента и дальнейшие исследования Что такое целевой..

Важность визуализации данных для машинного обучения
Подводя итоги своей семинедельной стажировки в качестве инженера по машинному обучению в ML6, я расскажу об одном из извлеченных мною уроков. Важность визуализации данных. Семь недель я работал над проектом ECC.ai . Платформа обучения с подкреплением, которая предлагает онлайн-оптимизацию сложных систем управления. Я провел исследование по конкретному запросу, включающему оптимизацию политик с использованием обучения с подкреплением без онлайн-обучения (на месте). Используя..

Актер-критик с TensorFlow 2.x [Часть 2 из 2]
Внедрение A2C с несколькими воркерами или без них с помощью TensorFlow 2.x Эта статья является второй частью серии Актер-критик с TensorFlow 2.x. В предыдущей статье мы реализовали метод Naive Actor-Critic с помощью TensorFlow 2.x, а в этой статье мы будем реализовывать метод Advantage Actor-Critic (A2C) с / без нескольких рабочих. Вы можете сослаться на мою предыдущую статью из этой серии здесь . Преимущество актер-критик (A2C): Давайте сначала сделаем обзор алгоритма A2C, чем..