Публикации по тегам reinforcement-learning

Публикации по теме 'reinforcement-learning'

Поиск кратчайшего пути с помощью алгоритма Q-Learning

Кратчайший путь в неориентированном графе. Вы также можете прочитать здесь . Графики - это математические структуры, используемые для моделирования парных отношений между объектами. Граф состоит из вершин, соединенных ребрами. В неориентированном графе я найду кратчайший путь между двумя вершинами. Q-обучение - это алгоритм обучения с подкреплением без использования моделей. Цель Q-Learning - изучить политику, которая сообщает агенту, какие действия следует предпринять..

Глубокое обучение с подкреплением для автоматизированной торговли акциями

Использование обучения с подкреплением для торговли несколькими акциями через Python и OpenAI Gym | Представлено на ICAIF 2020 Примечание редакторам Data Science. Хотя мы разрешаем независимым авторам публиковать статьи в соответствии с нашими правилами и рекомендациями , мы не поддерживаем вклад каждого автора. Не следует полагаться на работы автора без консультации с профессионалами. См. Подробности в наших Условиях для читателей . Этот блог основан на нашей статье:..

На «награды достаточно»

7 критиков. 1/7 Приора Приории — это предубеждения агента по отношению к некоторым вещам, предположительно более полезным. Например, эволюция дает нам множество предубеждений, т.е. все виды человеческого поведения, инвариантные к культуре. Это отмечают авторы. В своей статье они приходят к идее фиксированной, ограниченной способности, которая подразумевает ограниченное предварительное знание. Они говорят, что вместо этого мы можем склоняться к приобретенным знаниям в более сложных..

Машинное обучение на простом языке

Краткое и простое введение в машинное обучение для начинающих. Как и живые существа, машины также могут учиться что-то делать. В этом случае машина — это ученик , а мир или другое существо — естественное или искусственное — учитель . Согласно влиятельной книге Тома Митчелла 1997 года Машинное обучение , машинное обучение состоит из трех основных частей: задание, которое нужно выучить. наблюдения для изучения задачи. насколько хорошо выполняется задание. Задачи, которые..

Цепи Маркова и процесс принятия решений Маркова

Это вторая часть серии руководств по обучению с подкреплением для начинающих. Если вы еще не читали часть 1, перейдите по этой ссылке, чтобы перейти к части 1 . Большая часть содержания этого руководства скопирована из разных источников, поскольку я сам учусь. Марковская цепь и марковский процесс Свойство Маркова утверждает, что будущее зависит только от настоящего, а не от прошлого. Цепь Маркова - это вероятностная модель, которая зависит исключительно от текущего состояния, а не от..

Руководство по машинам Больцмана с ограничениями (RBM) — Часть 2

Как Netflix рекомендует фильмы пользователям? К концу этого блога вы поймете, как Netflix рекомендует фильмы пользователям. Если у вас нет опыта работы с машинами Больцмана (BM), я рекомендую вам пройти по этой ссылке (Часть 1). Почему RBM? Зачем нам RBM, когда у нас есть машины Больцмана? На практике очень сложно реализовать BM, на самом деле, в какой-то момент мы столкнемся с препятствием, потому что мы не можем вычислить полную машину Больцмана, и причина этого в том,..

Как применить обучение с подкреплением к реальным проблемам планирования жизни

Недавно я опубликовал несколько примеров, в которых я создал модели обучения с подкреплением для решения некоторых реальных жизненных проблем. Например, используя Обучение с подкреплением для планирования питания на основе установленного бюджета и личных предпочтений . Таким образом, обучение с подкреплением можно использовать для решения различных задач планирования, включая планы поездок, планирование бюджета и бизнес-стратегию. Два преимущества использования RL заключаются в том,..