Прогресс в глубоком обучении с подкреплением, часть 1

Глубокое обучение с подкреплением в Finite-Horizon для изучения наиболее вероятного пути перехода (arXiv)

Автор: Цзинь Го, Тин Гао, Пэн Чжан, Цзинцяо Дуань.

Аннотация: Это исследование направлено на обнаружение наиболее вероятного пути перехода для стохастических динамических систем, использующих обучение с подкреплением. Сначала мы используем теорию Онзагера-Махлупа для количественной оценки редких событий в стохастических динамических системах, а затем преобразуем наиболее вероятную проблему пути перехода в задачу оптимального управления с конечным горизонтом, потому что во многих случаях путь перехода не может быть определен явно путем вариации. Мы предлагаем метод терминального прогнозирования и интегрируем его с обучением с подкреплением, разрабатываем наш алгоритм Градиент глубокой детерминации конечного горизонта (FH-DDPG) для решения проблемы оптимального управления с конечным горизонтом. Далее мы представляем анализ сходимости алгоритма оценки функции цены с точки зрения ошибки аппроксимации нейронной сети и ошибки выборки при оценке сети. Наконец, проводятся эксперименты для задачи перехода в условиях гауссовского шума, чтобы проверить эффективность алгоритма.

2. Структура оптимизации для планирования рецептов трав на основе глубокого обучения с подкреплением (arXiv)

Автор: Го Ян, Цзецонг Ю, Синь Су, Сюн Хэ, Нин Ван, Цигуан Чжэн, Фейди Ю, Чжуан Лю, Тяньцай Вэнь, Сюэчжун Чжоу. »

Резюме: Планирование лечения хронических заболеваний является важной задачей в области медицинского искусственного интеллекта, особенно в традиционной китайской медицине (ТКМ). Однако разработка оптимизированных последовательных стратегий лечения пациентов с хроническими заболеваниями в различных клинических условиях остается сложной проблемой, требующей дальнейшего изучения. В этом исследовании мы предложили структуру планирования рецептов на травы ТКМ, основанную на глубоком обучении с подкреплением для лечения хронических заболеваний (PrescDRL). PrescDRL — это последовательная модель оптимизации рецептов на травы, которая фокусируется на долгосрочной эффективности, а не на достижении максимального вознаграждения на каждом этапе, тем самым обеспечивая лучшие результаты для пациентов. Мы создали высококачественный эталонный набор данных для последовательной диагностики и лечения диабета и сравнили PrescDRL с этим эталоном. Наши результаты показали, что PrescDRL достигла более высокого лечебного эффекта, при этом вознаграждение за один шаг улучшилось на 117% и 153% по сравнению с врачами. Кроме того, PrescDRL превзошел эталон в прогнозировании рецептов: точность повысилась на 40,5%, а отзыв — на 63%. В целом, наше исследование демонстрирует потенциал использования искусственного интеллекта для улучшения клинической интеллектуальной диагностики и лечения в традиционной китайской медицине.

Прогресс в глубоком обучении с подкреплением, часть 1

Вопросы по теме