В Части 1 этой серии мы обсудили, как моделирование поведения пользователей станет вторым шагом в процессе создания адаптивных интерфейсов, которые персонализируются в соответствии с потребностями пользователя. В этом посте мы рассмотрим одну такую ​​модель симулятора для задачи Визуальный поиск в выпадающих меню.

Давайте начнем с примера, где наша цель — создать пользовательский интерфейс, ориентированный на определенную демографическую группу (скажем, приложение для отслеживания медицины/здоровья для пожилых людей). Одним из способов решения этой проблемы является проведение экспериментов и использование полученных данных (среднее время отклика для выбора, острота зрения, предпочтение удобочитаемости и т. д.) при выборе дизайна (шрифт, цвет, макет, ярлыки, методы ввода), чтобы упростить использование среди что демографический. Это хорошо работает, но дорого и требует времени для проведения отдельных экспериментов. Чтобы избежать или помочь этому процессу, разработка смоделированных моделей, имитирующих стратегию пользователей, была активной областью исследований в области человеко-компьютерного взаимодействия. В целом такие методы можно разделить на три категории:

  • На основе карты (заметность, активация)
  • Байесовский MAP на основе
  • на основе оптимального управления

В этом посте нас будут интересовать методы оптимального управления или вычислительно-рациональные модели. Они основаны на идее, что поведение пользователя возникает, чтобы максимизировать лежащую в основе Полезность в условиях когнитивных и перцептивных ограничений. Таким образом, пользовательская стратегия становится оптимальной политикой и, следовательно, называется вычислительно рациональной моделью.

Одной из таких задач, которую можно смоделировать как рациональное поведение, является поиск в меню целевого элемента. Визуальный поиск — это то, что мы делаем сотни раз в день, и поэтому он является необходимым шагом на пути к окончательному решению проблемы визуального интеллекта.

В этой работе была представлена ​​идея использования обучения с подкреплением для получения вычислительно рациональных стратегий для решения задачи визуального поиска. Чен Х., Байи Г., Брамби Д., Уласвирта А., Хоус А. Появление интерактивного поведения: модель рационального поиска по меню, 2015 г.. Авторы исследуют влияние организации меню (алфавитный, семантический, неупорядоченный) и длины меню на возникающую оптимальную стратегию и сравнивают предсказания модели с эмпирическими данными.

Наша работа над этой моделью является производной от вышеупомянутой работы по следующим направлениям:

  • Модель делает ту же гипотезу оптимального управления, которую исследовали авторы, где задача поиска в меню рационально адаптирована к экологической структуре взаимодействия (какой агент наблюдает за окружающей средой), механизму (как агент наблюдает за окружающей средой: пределы восприятия, периферийное зрение) и Утилита (максимальная скорость и точность).
  • Модель использует ту же структуру для вознаграждения и периферийного зрения, о которой сообщалось в работе, где на каждом шаге продолжительность времени для выполнения этого шага (фиксация, продолжительность саккады) добавляется в качестве отрицательного вознаграждения. При решении задачи агент высоко вознаграждается или наказывается в случае неудачи.

Наша модель отличается следующими особенностями:

  • Модель наблюдения или структура экологии использует частично наблюдаемую модель, в которой пользователь наблюдает за семантикой и формой релевантности фиксированного элемента в меню, а затем выбирает вероятность того, что он является целью, из своего внутреннего распределения убеждений. .

Это позволяет нам параметризовать внутреннее когнитивное распределение пользователя и может использоваться для моделирования очень разных моделей поведения, наблюдаемых у пользователей-экспертов и новичков для одной и той же задачи.

Пользователь-эксперт будет иметь распределение убеждений, более близкое к истинному распределению, из которого были отобраны эти релевантности. Расхождение KL между этими двумя распределениями можно использовать в качестве параметра для моделирования пользовательского опыта.

  • Поэтому теперь мы можем решить PO-MDP как MDP с непрерывным состоянием, где состояние представляет собой текущее убеждение пользователя в том, что цель присутствует в этом месте в меню, а также дополнительное убеждение в отсутствии цели.

Теперь, когда пространство состояний является непрерывным и, следовательно, имеет практически бесконечные состояния, табличный метод обучения Q, такой как тот, который использовался в приведенной выше статье, не будет работать без какой-либо аппроксимации функций. Мы использовали метод Гауссовского процесса GP-SARSA для аппроксимации функции Q и использовали ковариационную матрицу, чтобы помочь агенту в стратегии исследования.

Преимущество использования таких байесовских методов по сравнению с популярными в настоящее время методами на основе глубокого обучения / градиента заключается в том, что он позволяет нам кодировать априорную информацию с точки зрения исследования HCI структурированным образом. Это важно, когда мы пытаемся сформировать модель симулятора, конечной целью которой является возможность объяснить эмпирические результаты.

Для полного изучения Gaussian Process-SARSA обучающегося RL будет еще один пост в серии «Воспроизводимость в машинном обучении», где я воспроизведу эксперименты оригинальной работы в среде Maze.

Обзор модели

Две версии учащегося GP-SARSA были реализованы с разреженным и неразреженным словарем. В разреженной версии порог (гиперпараметр) определяет, какие переходы состояний или шаги будут использоваться в качестве точек данных, чтобы соответствовать нашему гауссовскому априору. Это сокращает время выполнения алгоритма с O(t³) до O(tm²), где t=общее количество переходов, а m=точки данных в словаре. Отношение m/t регулируется пороговым параметром.

Чтобы получить представление об этом пороге, мы построим график распределения значений, которые контролирует этот порог (дельта).

Экспериментально мы заметили, что значение 0,5 работает лучше всего. Более высокое значение исключает множество потенциально важных переходов, а более низкое значение имеет повторяющиеся переходы с небольшой энтропией.

Политика

Учащийся был обучен следующим политикам выбора действий:

  • Epsilon-Greedy: стандартная политика, используемая в RL, где значение Epsilon контролирует компромисс между эксплуатацией и разведкой. Высокое значение эпсилон приводит к большему исследованию.
  • Активное обучение на основе ковариации: здесь мы используем ковариационную матрицу гауссовского процесса функции Q и исследуем действия, которые в настоящее время имеют высокую неопределенность в своих значениях Q (ожидаемый выигрыш). Таким образом, мы бы взяли,
  • Действие с наивысшим средним значением с вероятностью 1-Eps
  • Действие с наибольшей неопределенностью с Epsilon prob.

Поскольку ковариация этих значений State-Action обновляется по мере обучения агента, это называется активным подходом к обучению.

Стохастическое обучение. Здесь используется параметр под названием Ковариационная шкала, который управляет разбросом распределения значений Q. Правило выбора действия определяется как: Action(s) = argmax{Q’(s, a):a ∈ Ao}

где Q'(s,a) обозначает выборку: Q'(s, a) ∼ N (Q(s, a),η²cov((s, a),(s, a) ))

и η² = шкала ковариации

Как повторяется в оригинальной литературе по GP-SARSA, эта политика обеспечивает более быструю конвергенцию, но иногда приводит к неоптимальной политике. Это можно объяснить тем фактом, что эта политика обрабатывает исследование путем случайной попытки действий с перекрывающимся распределением. В нашем случае распределение действий «щелкнуть/выйти» значительно отличается от распределения действий фиксации, и, следовательно, эта политика препятствует изучению этих действий при начальном обучении и, таким образом, приводит к политике, при которой перед выбором выполняется множество фиксаций.

С помощью наших экспериментов мы заметили, что активное обучение приводит к лучшей политике.

Эксперименты

В вышеупомянутой работе авторы провели эксперименты по измерению времени выбора в задаче визуального поиска, чтобы измерить, как учащийся, обученный одному типу меню, работает в других меню. (на котором не обучался). Время выбора состоит из времени фиксации на объекте и продолжительности саккады. Их модель подтвердила то, что они наблюдали на эмпирических данных, что расположение меню в алфавитном порядке является наиболее эффективным с точки зрения времени выбора. В приведенных ниже результатах проводится сравнение семантической и неупорядоченной компоновки (в алфавитном порядке). Политика обучается на семантически организованных элементах меню, а время выбора агента и пропорция взгляда оцениваются на семантических и неупорядоченных меню.

Время выбора: мы сравниваем время выбора нашего учащегося с результатами вышеуказанной работы.

На приведенном выше графике показано время выбора для задачи визуального поиска в меню 10 элементов. Работа агента записывалась до и после обучения алфавитному, семантическому и неупорядоченному меню. Для семантически обученных учащихся среднее время выбора составляет 2000 мс, а среднее количество шагов ~ 4,6 (~ 437 мс на фиксацию) перед выбором.

Мы демонстрируем аналогичный график для производительности учащегося до и после обучения, когда он обучается в семантически организованном меню, а время его выбора сравнивается с его производительностью в неупорядоченном меню (более полная оценка по меню будет приведена ниже). Для наших экспериментов мы использовали меню из 8 пунктов, сгруппированных по 2, и для успешного выбора в семантическом меню требовалось в среднем ~ 2,8 шага.

Пропорция взгляда

Анализ распределения взгляда пользователя, когда он взаимодействует с интерфейсом, является ключом к созданию персонализированных адаптивных пользовательских интерфейсов. В Части 1 этой серии мы рассмотрели, как дизайнеры пользовательского интерфейса заинтересованы в том, чтобы знать о поведении пользователя (посредством движений мыши или взгляда) при взаимодействии с их продуктом, и поэтому аналитика взгляда как услуга стала для них важным инструментом. (Heat Map Inc продает подобные аналитические услуги в виде оберток Javascript)

Продолжая в том же духе, мы смотрим на пропорции взгляда в элементе Цель при навигации по меню, сначала из Чен и др., 2015, а затем из наших экспериментов.

Ниже приведены графики для пропорций взгляда в обученных политиках, обученных семантическим меню, по сравнению с неупорядоченным меню и начальным необученным учеником.

Здесь мы видим, что необученный агент равномерно распределяет взгляд между всеми целевыми элементами, в то время как обученный политик научился сосредотачиваться на определенных элементах в меню при поиске цели.

Причина такой высокой доли взгляда, когда цель находится на 3 (0, индексированная по оси x), заключается в том, что политика научилась фиксировать элемент 3 как первое действие, которое необходимо предпринять для каждого эпизода, поскольку это позволяет агенту кодировать семантику. релевантности обеих групп в меню через периферийное зрение (кодировать информацию об одном элементе выше и ниже места фиксации) и обновить состояние убеждения.

Вывод

Работа в Chen et. al,2015 предполагает полностью наблюдаемую и детерминированную структуру Ecology, в которой пользователь точно знает релевантность пунктов меню. Это то, что наша модель сформулировала бы как поведение эксперта с точки зрения механизма наблюдения. Включение внутреннего распределения убеждений, расхождение которого с этим экспертным истинным распределением может быть использовано для моделирования «знакомства» или «умелости» пользователя в этой задаче.

Пользователь, который демонстрирует другие умственные способности (люди с особыми потребностями) или когнитивную нагрузку при выполнении таких задач, будет иметь другое наблюдаемое поведение (с точки зрения времени выбора/полезности) и, следовательно, может не соответствовать этой модели. Наша модель пытается закодировать такое умение как параметр и упрощает введение других сигналов восприятия (помимо семантики и формы) без изменения учащегося или структуры среды.

В первой части этой серии я писал о том, как персонализация в потоковой передаче, электронной коммерции и рекламе помогла нам создавать более качественные продукты. Я считаю, что интерфейсы, которые адаптируются и изменяются в соответствии с когнитивными способностями пользователя, — это следующий шаг к созданию лучшего программного обеспечения.

Другими особенностями этой модели являются масштабируемость и работа с шумом наблюдения. Табличный Q-обучатель, такой как тот, который используется в статье, страдает от проклятия размерности, когда мы масштабируем пространство состояния-действия, в то время как эта непрерывная модель лучше подходит для кодирования дополнительной информации о восприятии и соответствующего шума.

В части 3 этой серии HCI мы исследуем, как можно использовать методы вывода без правдоподобия (приближенные байесовские вычисления) для вывода параметров этой модели в парадигме обратного типа обучения.