Публикации по тегам reinforcement-learning

Публикации по теме 'reinforcement-learning'

Сегментация с помощью Q-Learning

Введение: Итак, у нас уже есть много отличных подходов к сегментации текста, и они очень хорошо работают. Однако я не мог не подумать о попытке выполнить семантическую сегментацию текста с помощью обучения с подкреплением. Итак, я попытаюсь объяснить свой подход и свои доводы в пользу того, почему он может быть (если не уже) хорош в этом. Итак, у нас есть аппроксимация функции, и мы уже знаем, что нейронная сеть может изучать нелинейную функцию в большом масштабе, если вы еще не..

Метод итерации значения RL

Метод итерации значений — это фундаментальный метод, используемый в обучении с подкреплением на основе значений. В предыдущей главе мы обсудили концепцию обучения на основе ценностей, которая составляет основу метода итерации значений. Целью обучения, основанного на ценностях, является вычисление значения (V) каждого состояния в окружающей среде. Значение представляет собой ожидаемую доходность или полезность, связанную с нахождением в определенном состоянии. Он количественно..

Направление исследований № 4 — «Чувствование и коммуникация».

Что такое сенсорика и коммуникация? Датчики и связь являются двумя фундаментальными компонентами беспроводных сенсорных сетей (WSN), и их совместная работа имеет решающее значение для надлежащего функционирования этих сетей. WSN состоят из множества небольших сенсорных узлов с ограниченными ресурсами, оснащенных датчиками для сбора данных из окружающей среды. Эти узлы совместно образуют сеть и взаимодействуют друг с другом, чтобы доставить собранные данные в центральное расположение..

Локальное обучение AWS DeepRacer DRFC

Локальное обучение работе с DRFC -> Устранение неполадок Итак, вы тренируетесь локально на DRFC для AWS DeepRacer, отлично! Но это не всегда просто, иногда легко забыть, как запускать или обновлять стек после первоначальной настройки, или вы получаете новые ошибки при повторном запуске тренировок, особенно после перерыва в сезоне. Эту статью можно использовать как дополнение к основному руководству по DRFC . https://aws-deepracer-community.github.io/deepracer-for-cloud Это..

Обучение с подкреплением как вероятностное моделирование: формулировка вариационного вывода (часть I)

Обучение с подкреплением связано с попыткой агента достичь оптимального поведения в неизвестных средах, которые обычно проявляют стохастичность. Несмотря на минимальный контроль, алгоритмы обучения с подкреплением продемонстрировали многочисленные успехи - от решения игр ATARI с использованием Deep Q-Networks до триумфальной победы над чемпионами мира в игре GO, а недавно и в Start Craft. Возможно, наиболее интуитивно понятная формулировка обучения с подкреплением исходит из книги Эндрю и..

OpenAI Gym: быстрый старт (с TensorFlow)

Эта статья предназначена для тех, кто знаком с самыми основами TensorFlow и хочет создать что-то интересное самостоятельно. На протяжении всей этой статьи мы пытаемся решить классическую задачу управления балансированием подвижного перевернутого маятника над тележкой. OpenAI Gym предоставляет нам среду, и все, что нам нужно сделать, это сосредоточиться на улучшении алгоритма обучения для решения проблемы. Чтобы установить Gym, выполните следующие действия:..

Решения искусственного интеллекта: 3 способа обучения модели машинного обучения

Решения искусственного интеллекта: 3 способа обучения модели машинного обучения Искусственный интеллект (ИИ) быстро превратился из области, доступной только техническим специалистам, в неотъемлемую часть практически всех отраслей сегодня. Исследования McKinsey показывают, что внедрение искусственного интеллекта сегодня в 2,5 раза выше , чем в 2017 году, при этом возможности внедряются в такие ключевые области, как робототехника, компьютерное зрение, глубокое обучение и обработка..