Публикации по теме 'reinforcement-learning'


Отличные приложения для обучения с подкреплением
Давайте сравним различные типы алгоритмов машинного обучения и их приложения на конкретном примере с мышью в простом лабиринте. Если вы еще не прочитали учебник по обучению с подкреплением, вернитесь и сначала прочтите его здесь . Эта статья познакомит вас с ключевыми концепциями обучения с подкреплением. Тогда вы будете готовы полностью сравнить разные типы машинного обучения. Сравнение обучения с подкреплением с другими типами алгоритмов машинного обучения Возможно, вы..

Решение проблем в классических средах управления OpenAI Gym с использованием единой эволюционной платформы
Устройтесь поудобнее и позвольте группе нейронных сетей исследовать за вас ландшафт оптимизации, используя дарвиновский отбор. В этой статье я попытаюсь объяснить 3 вещи: Основная идея эволюционного алгоритма и того, как вы можете развить популяцию нейронных сетей, используя дарвиновский отбор. Как можно решить среду CartPole-v0 из спортзала OpenAI , используя эволюционный фреймворк Как вы можете легко переработать одну и ту же структуру для последовательного развития агентов,..

Что такое машинный интеллект и как его измерить?
Вступление Область искусственного интеллекта пережила огромное развитие за последние два десятилетия или около того. В основе дисциплины ИИ лежит идея о том, что однажды мы сможем создавать машины, по крайней мере, такие же умные, как люди. Такие системы часто называют общим искусственным интеллектом. Эти проблемы поднимают фундаментальные вопросы, которые ставят под сомнение наше понимание интеллекта. Что такое интеллект? Можем ли мы иметь математическое уравнение, которое..

Прежде всего, это соревнование на AIcrowd под названием Flatland, которое, я думаю, закончилось к моменту написания этой статьи. Моя цель сделать RL…
Во-первых, это соревнование на AIcrowd под названием Flatland , которое, я думаю, к моменту написания этой статьи закончилось. Моя цель создания алгоритма RL для решения этой проблемы заключалась не в том, чтобы выиграть соревнование, на самом деле я даже не представил никаких решений (ну, я все еще пытаюсь заставить его работать). Скорее, у меня давно была идея создать программу для составления расписания поездов с использованием RL. Так что представьте мое счастье, когда я случайно..

VIME - вариативная информация для максимизации разведки
Обучение с подкреплением стало настоящим прорывом благодаря значительному успеху DeepMind в демонстрации того, как искусственный интеллект может ускорить получение новых знаний. RL считается мертвым полем с точки зрения медленного обучения, огромного количества тренировок и требуемых больших вычислительных мощностей. Тем не менее, RL может быть влиятельным и действенным в помощи человеку, поскольку именно так человеческий мозг учится принимать решения. Вызывает много споров, Deep RL..

ML в двух словах
Контролируемое обучение Классификация - дискретный выход Регрессия - непрерывный вывод Контролируемое обучение в основном говорит машине, как что-то делать, предоставляя примеры того, как что-то делать. В каком-то смысле это просто аппроксимация функций. Вы можете думать об этом как о сопоставлении ввода и вывода. Важные идеи, которые стоит отметить / изучить: схемы принятия решений, наивный байесовский метод, ближайший сосед, SVM, нейронные сети, ускорение / пакетирование...

Behavior Suite для обучения с подкреплением
Команда DeepMind Technologies — в составе Ян Осбанд, Йотам Дорон, Маттео Хессель, Джон Асланидес, Эрен Сезнер, Андре Сарайва, Катрина МакКинни, Тор Латтимор, Чаба Сепезвари, Сатиндер Сингх, Бенджамин Ван Рой, Ричард Саттон, Дэвид Сильвер , и Хадо Ван Хесселт — недавно опубликовали статью о своей новой программе Behavior Suite (сокращенно bsuite). Bsuit — это программный пакет, предназначенный для помощи и предоставления информации исследователям, использующим глубокое обучение с..