Публикации по теме 'reinforcement-learning'


Повышение эффективности торговли за счет настройки гиперпараметров сети Deep Q
Торговля на фондовом рынке может быть сложным процессом, но с развитием ИИ и машинного обучения его можно вывести на новый уровень сложности. В этом сообщении блога мы рассмотрим, как улучшить классический торговый алгоритм с помощью глубокого обучения с подкреплением. Соединив Python и MQL5 с помощью сокетов, мы разработаем торговый алгоритм и реализуем сетевой агент глубокого Q, который будет постоянно изучать и оптимизировать гиперпараметры алгоритма. Эта комбинация приведет к созданию..

Визуальное объяснение обучения с подкреплением (часть 5): Deep Q Networks, шаг за шагом
ИНТУИТИВНАЯ СЕРИЯ ОБУЧЕНИЯ Визуальное объяснение обучения с подкреплением (часть 5): Deep Q Networks, шаг за шагом Краткое руководство по DQN с воспроизведением опыта на простом английском языке Это пятая статья из моей серии об обучении с подкреплением (RL). Теперь у нас есть хорошее понимание концепций, которые составляют строительные блоки проблемы RL, и методов, используемых для их решения. Мы также подробно рассмотрели алгоритм Q-Learning, который составляет основу сетей Deep..

7 лучших алгоритмов обучения с подкреплением в машинном обучении + предлагаемая библиотека Python
Обучение с подкреплением (RL) — это область машинного обучения, которая фокусируется на обучении агентов принимать последовательные решения в среде, чтобы максимизировать совокупное вознаграждение. В обучении с подкреплением есть несколько примечательных алгоритмов. Вот некоторые из лучших алгоритмов: Q-Learning: Q-Learning — это алгоритм RL без моделей, который использует функцию значения, называемую Q-value, для оценки ожидаемого совокупного вознаграждения за выполнение..

Решение задачи об оптимальном маршруте перевозки с использованием алгоритма Христофидеса–Сердюкова, Simplex и…
Решение задачи об оптимальных маршрутах — это классическая отраслевая задача, имеющая множество практических приложений в сфере оптимизации цепочки поставок. Можно рассматривать это как вариант задачи коммивояжёра, где у нас есть отправная точка, например наш продуктовый склад, и набор городов для доставки, каждый маршрут между двумя городами имеет стоимость, например стоимость топлива и пошлины и налоги. Мы также можем предположить, что каждая дорога имеет форму общей доступной пропускной..

Направление исследований № 7  — «Автоэнкодеры».
Что такое автоэнкодеры? Автоэнкодеры — это тип искусственной нейронной сети, используемый в неконтролируемом обучении для эффективного кодирования и декодирования данных. В первую очередь они предназначены для обучения компактному представлению входных данных в пространстве меньшей размерности, которое можно использовать для различных задач, таких как сжатие данных, уменьшение размерности, извлечение признаков и обнаружение аномалий. Архитектура автоэнкодера состоит из двух основных..

Все о схеме резервного копирования
Все о схеме резервного копирования Схема, объясняющая алгоритмы обучения с подкреплением Как мы знаем, картинка стоит тысячи слов; Схема резервного копирования дает визуальное представление о различных алгоритмах и моделях обучения с подкреплением. Процесс резервного копирования ( Операция обновления ) - это графическое представление алгоритма, представляющее состояние, действие, переход между состояниями, вознаграждение и т. Д. Функция значения (состояние или состояние-действие)..

Создание тренажерного зала OpenAI для применения обучения с подкреплением к проблеме торговли акциями
Что такое тренажерный зал OpenAI? Gym — это библиотека Python с открытым исходным кодом для разработки и сравнения алгоритмов обучения с подкреплением, предоставляющая стандартный API для связи между алгоритмами обучения и средами. Недавно тренажерный зал больше не поддерживается OpenAI, а другой командой, и последние версии можно найти здесь . Тренажерный зал имеет встроенные среды для начала работы с обучением с подкреплением, такие как CartPole, LunarLander и различные игры Atari,..