Публикации по теме 'reinforcement-learning'


Какие направления должны стать приоритетными для ML / AI в 2018 году?
В этой статье рассматриваются последние тенденции в области науки о данных / машинного обучения / искусственного интеллекта и предлагаются подрайоны группам DS, на которых следует сосредоточиться. Производство машинного обучения Это будет наиболее важным направлением деятельности в 2018 году. Большинство предприятий проверили концепцию машинного обучения и стремятся реализовать всю ценность своих данных с помощью полнофункциональной производственной реализации алгоритмов. Ключевой..

Введение в параллельные вычисления с помощью Ray
Изучение основ библиотеки обучения с подкреплением Начать работать с глубоким обучением с подкреплением непросто. Существует множество проблем: от разной терминологии и контролируемого обучения или оптимизации до разработки моделирования и, конечно же, алфавитного набора алгоритмов на выбор и греческого алфавита гиперпараметров, с которыми можно поиграть. Более того, RL имеет тенденцию чрезвычайно потреблять данные, требуя тысяч, если не миллионов симуляций, чтобы изучить хорошую..

Применение глубокого обучения с подкреплением при сжатии данных временных рядов - документ ICDE 2020
Автор Xinyang Признание вовлеченных людей Во время написания этой статьи Яньцин Пэн, Фейдао, Ваншэн, Лейю, Майцзюнь и Юэси внесли большой вклад. Здесь я хочу выразить особую признательность Фейдао за руководство и помощь. Я также хочу выразить благодарность за поддержку Ксили и Деши за помощь и поддержку. Предисловие «Между коровьими костями есть щели, а нож очень тонкий. Следовательно, ножом легко разрезать кости ». - По материалам Пао Дин Цзе Ню. Эта китайская..

Обучение с подкреплением на конференции по искусственному интеллекту O’Reilly, Нью-Йорк, 2017 г.
Конференция по искусственному интеллекту O’Reilly 2017 прошла в Нью-Йорке пару недель назад. Это была потрясающая конференция с очень хорошими выступлениями как из академических кругов, так и из промышленности. В этом посте резюмируются несколько бесед и учебное пособие, которое я взял там, о обучении с подкреплением , области машинного обучения, касающейся того, как программные агенты должны действовать в среде, чтобы максимизировать некоторое понятие кумулятивного вознаграждения ...

Введение: обучение с подкреплением в OpenAI Gym
Краткое введение в обучение с подкреплением и основы тренажерного зала OpenAI. Добро пожаловать в практическое руководство для начинающих по RL для задач навигации и вождения. Изучите основные концепции goto, чтобы быстро начать обучение с подкреплением, и научитесь тестировать свои алгоритмы с помощью тренажерного зала OpenAI для достижения воспроизводимых результатов, ориентированных на исследования. Эта статья сначала познакомит вас с основами обучения с подкреплением, его текущими..

Серия RL-A2C и A3C
Это часть моих постов RL-series . В последнем посте мы говорили о REINFORCE и градиентах политики. Мы увидели, что дисперсия в градиентах стандартной политики и REINFORCE велика, и мы можем уменьшить эту дисперсию, вычитая базовую линию из G. Эта базовая линия может быть функцией значения и изучаться с помощью градиентного спуска. Я думаю, мы можем вызвать функцию преимущества rescaler G-V (на самом деле это оценка преимущества). В REINFORCE мы обновляем политику и функции..

Руководство для новичков по изучению обучения с подкреплением
Маленькие шаги в сфере обучения с подкреплением Если вас беспокоит лимитированный платный доступ, перейдите по этой ссылке . Если вы хотите узнать мой путь к глубокому обучению, ознакомьтесь с моей статьей Руководство по глубокому обучению для новичков . Я собираюсь поговорить здесь не об обучении с подкреплением, а о том, как изучать обучение с подкреплением, какие шаги я предпринял и что считаю полезным в процессе обучения. Если найдете что-то полезное, дайте мне знать в..