Публикации по теме 'reinforcement-learning'


Искусственный интеллект с эффективным использованием образцов
ПОДКАСТ Искусственный интеллект с эффективным использованием образцов Ян Гао о создании ИИ, который обучается так же быстро, как люди Примечание редактора. Ведущим подкаста TDS является Джереми Харрис, соучредитель Mercurius, стартапа, занимающегося безопасностью ИИ. Каждую неделю Джереми общается с исследователями и бизнес-лидерами, работающими в авангарде отрасли, чтобы ответить на самые насущные вопросы, связанные с наукой о данных, машинным обучением и искусственным..

Иллюстрированное глубокое обучение: моя первая книга
Я рад объявить о выпуске своей первой книги Deep Learning Illustrated . Глубокое обучение трансформирует программное обеспечение, способствует появлению новых мощных возможностей искусственного интеллекта и обеспечивает беспрецедентную производительность алгоритмов. Deep Learning Illustrated уникально наглядно, интуитивно понятно и доступно , но при этом предлагает исчерпывающее введение в методы и приложения дисциплины. В книге есть полноцветные иллюстрации и понятный..

Глубокое обучение с подкреплением  — Часть 2 Введение в RL
Политика Политика — это поведение агента, которое отображает состояние агента в действие. По сути, существует два типа политик — детерминированные и стохастические. Детерминированная политика где a — набор действий, s — текущее состояние, а pi — политика. Стохастическая политика Значение Функция Функция ценности — это предсказание будущего вознаграждения агента. Функция значения оценивает качество/плохо данного состояния. Это позволяет агенту выбирать между..

Практический курс обучения с подкреплением — часть 1
Практические уроки Практический курс обучения подкреплению: часть 1 От нуля до героя, шаг за шагом. Добро пожаловать на мой курс обучения с подкреплением! ❤️ Давайте вместе пройдем этот прекрасный путь от основ к передовому обучению с подкреплением (RL), шаг за шагом, с примерами кодирования и учебными пособиями на Python! Эта первая часть охватывает минимальный набор концепций и теорий, необходимых для того, чтобы начать это путешествие. Затем, в каждой следующей главе, мы..

RL против оптимального управления: LQR для отслеживания траектории (с кодом Python)
Введение В этой серии блогов мы узнаем о классических методах оптимального управления, которые каким-то образом заложили прочную основу для более знакомых тем, таких как обучение с подкреплением. Между этими двумя областями существует неизбежная общая граница, и эта серия предназначена для того, чтобы предложить эти формальные методы оптимального управления в качестве эффективной альтернативы методам обучения с подкреплением. Оптимальное управление или RL направлено на поиск..

RL - Имитационное обучение
Подражание - ключевая часть человеческого обучения. В мире высоких технологий, если вы не новатор, вы хотите быстро последовать за ним. В обучении с подкреплением мы максимизируем вознаграждение за свои действия. RL на основе модели фокусируется на модели (динамике системы) для оптимизации наших решений, в то время как методы Policy Gradient улучшают политику для лучшего вознаграждения. С другой стороны, имитационное обучение фокусируется на имитации демонстраций экспертов...

Мой путь к обучению с подкреплением - Часть 0: Введение
В настоящее время я очень мало знаю об обучении с подкреплением, и я хочу это изменить, поэтому вот мой первый шаг в обучении обучению с подкреплением. И в качестве первого шага я хочу сначала рассмотреть общие обзоры. Обратите внимание, что этот пост предназначен для меня в будущем, и мой процесс обучения может быть медленным или отличаться от вашего. Учебное пособие по обучению с подкреплением, Питер Бодик, Калифорнийский университет в Беркли Из этой лекции я узнал, что..