Публикации по теме 'reinforcement-learning'


Работа по книге, итерация политики
Давайте продолжим наш тур по обучению с подкреплением. В прошлый раз я говорил об оценке политики , а именно, если вам дана политика, как вы можете произвести разумную оценку с точки зрения функции ценности , v_π или q_π . Помните, что функция ценности возвращает возврат (сумму всех будущих вознаграждений) с учетом состояния для v_π или пары состояние/действие для варианта q_π. Но наша реальная цель состоит в том, чтобы произвести хорошую политику. Никто не заботится о больших..

Интеллектуальные агенты в искусственном интеллекте
Введение За последние годы искусственный интеллект (ИИ) добился значительных успехов, открыв эпоху, когда интеллектуальные системы становятся неотъемлемой частью нашей повседневной жизни. В основе этих достижений лежат интеллектуальные агенты — компьютерные программы или объекты, предназначенные для выполнения конкретных задач, принятия решений и автономного взаимодействия с окружающей средой. Интеллектуальные агенты играют ключевую роль в искусственном интеллекте, позволяя машинам..

ChatGPT: революционный диалоговый ИИ с расширенными языковыми моделями
Введение В последние годы в области искусственного интеллекта произошли замечательные успехи, особенно в области обработки естественного языка (NLP). Среди заметных разработок — создание ChatGPT, инновационного чат-бота на базе архитектуры OpenAI GPT-3.5. ChatGPT — это передовая языковая модель, в которой используются методы обработки данных для генерации ответов, подобных человеческим, что открывает новые возможности для диалогового ИИ. В этом сообщении блога мы исследуем..

Начало работы с машинным обучением 😃
Возможно, вы заходили на YouTube, искали какой-то контент, смотрели его и выключали. Через несколько дней вы снова посещаете его и обнаруживаете, что некоторые видео в ваших рекомендациях совпадают с вашими предыдущими поисковыми запросами. Вам может быть интересно, как это могло произойти. =› Это потому, что ваша машина узнала о вас, о том, какой вы есть и что вам нравится видеть. Здесь на первый план выходит основное применение машинного обучения, т. е. рекомендательные системы...

ИИ может понять каждый: Часть 2 — Уравнение Беллмана
Обязательно ознакомьтесь с остальной частью серии ИИ, которую может понять каждый , которую я написал и планирую продолжить писать. Упрощенное объяснение Уравнение Беллмана — это способ для машин определить, какое действие следует предпринять в данной ситуации. Он делает это, рассматривая немедленные награды за каждое действие и ожидаемые будущие награды за каждое действие. Машина использует эту информацию, чтобы решить, какое действие будет для нее наилучшим в долгосрочной..

Чтение дорожной карты для POMDP
Использованная литература:

Q-Learning: первый и главный алгоритм обучения с подкреплением
Введение При изучении обучения с подкреплением самый простой и простой алгоритм, который нужно знать, - это Q-Learning. Есть много терминов, связанных с RL, которые каждый должен знать для начала и понимать их. Q-Learning - это не только простой алгоритм, но и очень интересный, который можно применять для получения почти всех реальных решений. Прежде всего, мы должны знать, что «Q» в Q-Learning означает «качество». Он определяет действия, предпринимаемые нашим агентом, и помогает..