Публикации по теме 'reinforcement-learning'
Поиск кратчайшего пути с помощью алгоритма Q-Learning
Кратчайший путь в неориентированном графе. Вы также можете прочитать здесь .
Графики - это математические структуры, используемые для моделирования парных отношений между объектами. Граф состоит из вершин, соединенных ребрами. В неориентированном графе я найду кратчайший путь между двумя вершинами.
Q-обучение - это алгоритм обучения с подкреплением без использования моделей. Цель Q-Learning - изучить политику, которая сообщает агенту, какие действия следует предпринять..
Глубокое обучение с подкреплением для автоматизированной торговли акциями
Использование обучения с подкреплением для торговли несколькими акциями через Python и OpenAI Gym | Представлено на ICAIF 2020
Примечание редакторам Data Science. Хотя мы разрешаем независимым авторам публиковать статьи в соответствии с нашими правилами и рекомендациями , мы не поддерживаем вклад каждого автора. Не следует полагаться на работы автора без консультации с профессионалами. См. Подробности в наших Условиях для читателей .
Этот блог основан на нашей статье:..
На «награды достаточно»
7 критиков.
1/7 Приора
Приории — это предубеждения агента по отношению к некоторым вещам, предположительно более полезным. Например, эволюция дает нам множество предубеждений, т.е. все виды человеческого поведения, инвариантные к культуре. Это отмечают авторы.
В своей статье они приходят к идее фиксированной, ограниченной способности, которая подразумевает ограниченное предварительное знание. Они говорят, что вместо этого мы можем склоняться к приобретенным знаниям в более сложных..
Машинное обучение на простом языке
Краткое и простое введение в машинное обучение для начинающих.
Как и живые существа, машины также могут учиться что-то делать. В этом случае машина — это ученик , а мир или другое существо — естественное или искусственное — учитель .
Согласно влиятельной книге Тома Митчелла 1997 года Машинное обучение , машинное обучение состоит из трех основных частей:
задание, которое нужно выучить. наблюдения для изучения задачи. насколько хорошо выполняется задание.
Задачи, которые..
Цепи Маркова и процесс принятия решений Маркова
Это вторая часть серии руководств по обучению с подкреплением для начинающих. Если вы еще не читали часть 1, перейдите по этой ссылке, чтобы перейти к части 1 . Большая часть содержания этого руководства скопирована из разных источников, поскольку я сам учусь.
Марковская цепь и марковский процесс
Свойство Маркова утверждает, что будущее зависит только от настоящего, а не от прошлого. Цепь Маркова - это вероятностная модель, которая зависит исключительно от текущего состояния, а не от..
Руководство по машинам Больцмана с ограничениями (RBM) — Часть 2
Как Netflix рекомендует фильмы пользователям?
К концу этого блога вы поймете, как Netflix рекомендует фильмы пользователям. Если у вас нет опыта работы с машинами Больцмана (BM), я рекомендую вам пройти по этой ссылке (Часть 1).
Почему RBM?
Зачем нам RBM, когда у нас есть машины Больцмана? На практике очень сложно реализовать BM, на самом деле, в какой-то момент мы столкнемся с препятствием, потому что мы не можем вычислить полную машину Больцмана, и причина этого в том,..
Как применить обучение с подкреплением к реальным проблемам планирования жизни
Недавно я опубликовал несколько примеров, в которых я создал модели обучения с подкреплением для решения некоторых реальных жизненных проблем. Например, используя Обучение с подкреплением для планирования питания на основе установленного бюджета и личных предпочтений .
Таким образом, обучение с подкреплением можно использовать для решения различных задач планирования, включая планы поездок, планирование бюджета и бизнес-стратегию. Два преимущества использования RL заключаются в том,..