Публикации по теме 'reinforcement-learning'
Искусственный интеллект с эффективным использованием образцов
ПОДКАСТ
Искусственный интеллект с эффективным использованием образцов
Ян Гао о создании ИИ, который обучается так же быстро, как люди
Примечание редактора. Ведущим подкаста TDS является Джереми Харрис, соучредитель Mercurius, стартапа, занимающегося безопасностью ИИ. Каждую неделю Джереми общается с исследователями и бизнес-лидерами, работающими в авангарде отрасли, чтобы ответить на самые насущные вопросы, связанные с наукой о данных, машинным обучением и искусственным..
Иллюстрированное глубокое обучение: моя первая книга
Я рад объявить о выпуске своей первой книги Deep Learning Illustrated .
Глубокое обучение трансформирует программное обеспечение, способствует появлению новых мощных возможностей искусственного интеллекта и обеспечивает беспрецедентную производительность алгоритмов. Deep Learning Illustrated уникально наглядно, интуитивно понятно и доступно , но при этом предлагает исчерпывающее введение в методы и приложения дисциплины.
В книге есть полноцветные иллюстрации и понятный..
Глубокое обучение с подкреплением — Часть 2 Введение в RL
Политика
Политика — это поведение агента, которое отображает состояние агента в действие. По сути, существует два типа политик — детерминированные и стохастические.
Детерминированная политика
где a — набор действий, s — текущее состояние, а pi — политика.
Стохастическая политика
Значение Функция
Функция ценности — это предсказание будущего вознаграждения агента. Функция значения оценивает качество/плохо данного состояния. Это позволяет агенту выбирать между..
Практический курс обучения с подкреплением — часть 1
Практические уроки
Практический курс обучения подкреплению: часть 1
От нуля до героя, шаг за шагом.
Добро пожаловать на мой курс обучения с подкреплением! ❤️
Давайте вместе пройдем этот прекрасный путь от основ к передовому обучению с подкреплением (RL), шаг за шагом, с примерами кодирования и учебными пособиями на Python!
Эта первая часть охватывает минимальный набор концепций и теорий, необходимых для того, чтобы начать это путешествие. Затем, в каждой следующей главе, мы..
RL против оптимального управления: LQR для отслеживания траектории (с кодом Python)
Введение
В этой серии блогов мы узнаем о классических методах оптимального управления, которые каким-то образом заложили прочную основу для более знакомых тем, таких как обучение с подкреплением. Между этими двумя областями существует неизбежная общая граница, и эта серия предназначена для того, чтобы предложить эти формальные методы оптимального управления в качестве эффективной альтернативы методам обучения с подкреплением. Оптимальное управление или RL направлено на поиск..
RL - Имитационное обучение
Подражание - ключевая часть человеческого обучения. В мире высоких технологий, если вы не новатор, вы хотите быстро последовать за ним. В обучении с подкреплением мы максимизируем вознаграждение за свои действия. RL на основе модели фокусируется на модели (динамике системы) для оптимизации наших решений, в то время как методы Policy Gradient улучшают политику для лучшего вознаграждения.
С другой стороны, имитационное обучение фокусируется на имитации демонстраций экспертов...
Мой путь к обучению с подкреплением - Часть 0: Введение
В настоящее время я очень мало знаю об обучении с подкреплением, и я хочу это изменить, поэтому вот мой первый шаг в обучении обучению с подкреплением. И в качестве первого шага я хочу сначала рассмотреть общие обзоры.
Обратите внимание, что этот пост предназначен для меня в будущем, и мой процесс обучения может быть медленным или отличаться от вашего.
Учебное пособие по обучению с подкреплением, Питер Бодик, Калифорнийский университет в Беркли
Из этой лекции я узнал, что..