Публикации по теме 'reinforcement-learning'
Машинное обучение для начинающих
Мы все знаем, что объем данных увеличивается с очень высокой скоростью и разнообразием. Как мы используем эти данные для получения прибыли, теперь появился термин «машинное обучение», которое очень помогает в принятии решений и в рассуждении.
Что такое машинное обучение?
Машинное обучение - это разновидность искусственного интеллекта (ИИ). Это помогает анализировать и интерпретировать закономерности из данных. Это дает нашей системе возможность автоматически учиться совершенствоваться..
Глубокое обучение с подкреплением (DeepRL) для обобщения абстрактного текста стало проще (Урок 9)
Это учебное пособие является 9-м выпуском серии Упрощенное суммирование абстрактного текста , в этой серии мы рассмотрим новейшие подходы с использованием глубокого обучения для решения задачи суммирования абстрактного текста, весь код для этой серии можно найти здесь , который написан в тензорном потоке и без проблем работает в Google Colab, а данные находятся на диске Google, поэтому нет необходимости ни загружать данные локально, ни запускать код локально, так как все можно сделать..
Реализация DQNClipped и DQNReg со стабильными базовыми показателями
Для мини-проекта я решил реализовать в коде некоторые алгоритмы из статьи Развитие алгоритмов обучения с подкреплением . Основная идея статьи состоит в том, чтобы разработать новые алгоритмы обучения с подкреплением (RL), представляя алгоритм в виде графа, допуская различные эволюции и выбирая наиболее эффективные из них.
Некоторые моменты из статьи для меня:
Разработанные алгоритмы могут загружаться из известного алгоритма (например, Deep Q Network (DQN)) или с нуля. Алгоритмы..
Платформа Plug-and-play для персонализации внутриигрового и внутриигрового опыта
Платформа Plug-and-play для персонализации внутриигрового и внутриигрового опыта
Модели персонализации и рекомендаций широко используются технологическими и развлекательными компаниями как высокоэффективные инструменты для улучшения цифрового опыта и оптимизации конверсии. Однако традиционный процесс разработки и производства моделей требует значительных инженерных усилий, что увеличивает время выхода на рынок и затраты на внедрение. В этой статье мы обсуждаем дизайн платформы..
Обучение ориентированного на цель чат-бота с помощью глубокого обучения с подкреплением - Часть I
Часть I: Введение и цикл обучения
В этой серии мы собираемся узнать о целевых чат-ботах и обучить одного с помощью глубокого обучения с подкреплением на Python! Все с нуля! Код для этой серии руководств можно найти здесь .
Содержание серии
Часть I: Введение и цикл обучения
Часть II: Агент DQN
Часть III: Отслеживание состояния диалога
Часть IV: Имитатор пользователя и контроллер модели ошибок
Часть V: Запуск агента и дальнейшие исследования
Что такое целевой..
Важность визуализации данных для машинного обучения
Подводя итоги своей семинедельной стажировки в качестве инженера по машинному обучению в ML6, я расскажу об одном из извлеченных мною уроков. Важность визуализации данных.
Семь недель я работал над проектом ECC.ai . Платформа обучения с подкреплением, которая предлагает онлайн-оптимизацию сложных систем управления. Я провел исследование по конкретному запросу, включающему оптимизацию политик с использованием обучения с подкреплением без онлайн-обучения (на месте).
Используя..
Актер-критик с TensorFlow 2.x [Часть 2 из 2]
Внедрение A2C с несколькими воркерами или без них с помощью TensorFlow 2.x
Эта статья является второй частью серии Актер-критик с TensorFlow 2.x. В предыдущей статье мы реализовали метод Naive Actor-Critic с помощью TensorFlow 2.x, а в этой статье мы будем реализовывать метод Advantage Actor-Critic (A2C) с / без нескольких рабочих. Вы можете сослаться на мою предыдущую статью из этой серии здесь .
Преимущество актер-критик (A2C):
Давайте сначала сделаем обзор алгоритма A2C, чем..