Публикации по теме 'reinforcement-learning'


Раскрытие секретов обучения с подкреплением: изучение его основных элементов
Добро пожаловать в увлекательный мир обучения с подкреплением (RL), мощного подхода к обучению компьютеров тому, как принимать решения и решать сложные задачи. Здесь мы углубимся в основные элементы RL, раскрывая ключевые строительные блоки, которые делают эту область такой интригующей и эффективной. Агенты : Герои RL. В основе RL лежат агенты, представляющие собой разумные сущности, взаимодействующие с окружающей средой. Эти агенты наблюдают за состоянием своей среды, предпринимают..

Машинное обучение
Эта статья о машинном обучении поможет вам понять, что такое машинное обучение, как оно работает, а также методы и виды этой технологии для бизнеса. Что такое машинное обучение Машинное обучение — это подраздел искусственного интеллекта , который поможет прогнозировать результаты без явного программирования. Другими словами, это имитация человеческого поведения при обучении персонала. ML использует данные для получения новых результатов. Механизм обучения начинается с поиска..

Оптимизация гиперпараметров с использованием настройки лучей для моделей FinRL
В предыдущих статьях об оптимизации гиперпараметров с использованием Optuna и Sweep Hyperparameter Sweep из Weights and Biases мы рассмотрели детали реализации использования различных инструментов оптимизации гиперпараметров (HPO) для моделей FinRL. FinRL — это проект с открытым исходным кодом, работающий в основном над созданием исследовательской базы для обучения с подкреплением в области финансов. У него также есть FinRL-Meta , универсальное место для всех исследований в области..

Ключевые выводы 2 (DP и GPI) из учебника Саттона и Барто Р.Л.
Что следует знать о динамическом программировании и итерации политик Глава 4 учебника RL Саттона и Барто. Вы узнаете, как работают оценка и улучшение политик, а также разницу между итерацией политики/значения и GPI. Это вторая часть серии учебников Обучение с подкреплением (RL) Саттона и Барто. Дополнительную информацию см. в первой статье . Опять же, это дополнение, а не замена учебника. Динамическое программирование (глава 4) Без лишних слов, давайте углубимся в технические..

RL применительно к управлению химическими и нефтеперерабатывающими заводами
RL (обучение с подкреплением) — это просто динамическое программирование, дополненное другим (очень причудливым) названием. По крайней мере, следует устранить фактор страха для инженеров по контролю и оптимизации рабочих процессов. Я собираюсь опубликовать ряд рабочих примеров из MPC на основе модели и простого ПИД-управления. После более чем 40-летнего опыта работы в области прикладной техники управления в нефтеперерабатывающей, нефтехимической, энергетической и оборонной отраслях,..

Udacity Deep Reinforcement Learning - Проект 1 - Навигация
NB! Источником большей части этого контента являются мои заметки по курсу Udacity. Вступление Нейронные сети совершили несколько прорывов в таких областях, как компьютерное зрение, машинное обучение, машинный перевод и прогнозирование временных рядов. Сочетание нейронных сетей с глубоким обучением с подкреплением позволяет нам создавать поразительный компьютерный интеллект. Самый лучший и самый известный пример - AlphaGo . AlphaGo - первая компьютерная программа, победившая..

Обучение с подкреплением - обучение машины азартным играм с помощью Q-Learning
Обучение с подкреплением - это область искусственного интеллекта и машинного обучения, которая включает моделирование множества сценариев для оптимизации результатов. Одним из наиболее часто используемых подходов в обучении с подкреплением является метод Q-обучения. В Q-обучении создается среда моделирования, и алгоритм включает набор состояний «S» для каждого сценария моделирования, набор действий «A» и агента, который выполняет эти действия, чтобы проникнуть в состояния. Каждый раз,..