На ACM CHI 2021 Аракава (Токийский университет) и Якура (Университет Цукубы) совместно написали статью о разработке методов вмешательства для приложений машинного обучения Безмозглый аттрактор: ложноположительное устойчивое вмешательство для рисования. Внимание с использованием слухового возмущения». Он был удостоен награды Best Paper Honorable Mention 🏅. В этой статье мы хотели бы кратко представить содержание статьи.



1. История

С развитием машинного обучения и компьютерного зрения стало привычным отслеживать поведение пользователей с помощью камер. Например, был предложен метод [1] для оценки по изображениям лица, концентрируется ли пользователь на видеообщении, таком как онлайн-классы.

С другой стороны, мало обсуждалось, как вмешиваться в действия пользователей, посещающих онлайн-классы, при использовании зондирования на основе машинного обучения. Самый простой способ — просто предупредить пользователя, когда он или она не может сосредоточиться. Однако точно так же, как учитель, говорящий вам «сосредоточиться», не обязательно означает, что вы сможете сосредоточиться, такой подход может подорвать мотивацию пользователя к обучению, а не помочь ему или ей сосредоточиться.

Кроме того, есть еще одна сложность из-за использования машинного обучения. То есть то, что машинное обучение определяет, что вы не концентрируетесь, не означает, что вы на самом деле не концентрируетесь, и нельзя исключать возможность ложного срабатывания. Если вы получите предупреждение, когда думаете, что концентрируетесь, вы потеряете доверие к системе и перестанете ее использовать [2].

Поэтому мы провели исследование, чтобы обсудить и оценить, как должно быть спроектировано вмешательство пользователя в систему, использующую датчики на основе машинного обучения.

2. Идея

Наша техника вмешательства была вдохновлена ​​наблюдением за естественным общением людей. Во время разговора люди сознательно или бессознательно меняют высоту и громкость своего голоса по желанию, чтобы привлечь внимание своих слушателей. Вы, возможно, изо всех сил пытались освоить такую ​​голосовую интонацию во время практики презентации. И наоборот, у нас есть когнитивная черта [3–4] бессознательного обращения внимания на такие изменения высоты тона и громкости.

Воспользовавшись этим, компьютеры смогут естественным образом перенаправлять внимание людей на видеоконтент. Другими словами, когда пользователь теряет фокус, система может вызвать случайное изменение голоса, не предупреждая пользователя.

Основываясь на этой идее, мы разработали Mindless Attractor, систему, которая изменяет высоту и громкость голоса в режиме реального времени, чтобы естественным образом привлечь внимание пользователя.

3. Связь с поведенческой экономикой

На самом деле наш подход можно связать с выводами поведенческой экономики. Вы когда-нибудь слышали о Дэниеле Канемане, экономисте-бихевиористе? В своей книге «Быстро и медленно» он обсуждает когнитивную модель под названием «Теория двойного процесса».

Проще говоря, модель утверждает, что наши когнитивные процессы представляют собой комбинацию «Системы 1», которая очень быстро принимает решения на основе инстинкта и опыта, и «Системы 2», которая принимает решения логично и обдуманно. А поскольку Система 2 требует внимания для работы, говорят, что Система 1, которая может действовать бессознательно, отвечает за большую часть человеческого поведения.

И наоборот, чтобы вмешаться в поведение человека, необходимо воздействовать на Систему 1. С этой точки зрения подход «подталкивания» был разработан для изменения поведения с использованием интуиции и предубеждений людей. Например, вы могли слышать, что изменение ширины и расстояния между белыми линиями на дороге может создать иллюзию того, что водители превышают скорость, тем самым исключая превышение скорости [5].

Тем не менее, эти подталкивания часто имеют форму представления одного и того же трюка для всех. В предыдущем примере, если бы ширина белой линии могла автоматически подстраиваться под скорость автомобиля, это могло бы работать более эффективно для многих водителей. С этой точки зрения был предложен подход безмозглых вычислений [6], который использует компьютеры для повышения эффективности изменения поведения через систему1 путем ее персонализации и адаптации к контексту пользователя.

Наш метод имеет много общего с безмозглыми вычислениями в том смысле, что он использует бессознательные когнитивные характеристики людей. С другой стороны, не было перспективы совмещения его с машинным обучением. Особенно при распознавании с помощью машинного обучения, где неизбежна вероятность ложных срабатываний, сочетание этого бездумного подхода дает новое представление о том, как можно эффективно использовать машинное обучение, не создавая разочарования для пользователя.

4. Исследование и результаты

Конечно, простого изложения идеи недостаточно для проведения исследования. Мы провели два эксперимента, которые повторяли онлайн-занятия, чтобы проверить эффективность Mindless Attractor, и подтвердили следующие моменты. Подробности см. в документе.

・Использование Бездумного аттрактора сократило количество времени, проведенного без сосредоточения, в среднем на 40% по сравнению со случаем без Бездумного аттрактора. Это было сопоставимо с эффектом явных предупреждений.

・Кроме того, пользователи предпочли использование Mindless Attractor явным оповещениям. И наоборот, как мы и ожидали, мы также наблюдали неудовлетворенность пользователей, когда явные оповещения вызывались ложными срабатываниями.

5. Резюме и будущая работа

Подводя итог, в этой статье сделан следующий вклад.

・Мы разработали Mindless Attractor, систему, которая искажает звук в режиме реального времени, чтобы естественным образом возвращать внимание пользователей на онлайн-занятиях.

・Экспериментами мы подтвердили эффективность Mineless Attractor в естественном возвращении внимания к пользователю, а также то, что он предпочтительнее явных предупреждений.

・Основываясь на этих результатах, мы обсудили важность неявного, не разочаровывающего подхода к разработке вмешательств на основе зондирования на основе машинного обучения.

Мы ожидаем, что эту технологию можно будет применять не только в онлайн-классах, но и в других ситуациях. Например, если в ближайшем будущем ношение таких устройств, как наушники, станет обычным явлением, компьютеризированное вмешательство в слух станет более простым и более применимым и для общения в автономном режиме. Мы верим, что это будет технология улучшения человеческого слуха, с помощью которой пользователи смогут активно контролировать уровень своей концентрации во время разговора с помощью компьютера в соответствии со своим удобством.

6. Благодарности

Некоторые сенсорные модули, использованные в эксперименте, были предоставлены компанией ACES Inc.

7. Часто задаваемые вопросы

Q1: Как вы определяете уровень концентрации? Это работает, даже когда я сплю?

А1. В этом эксперименте ориентация лица оценивается по изображению с веб-камеры, чтобы определить, смотрит ли субъект на экран ПК или нет. По этой причине калибровка выполняется до начала эксперимента (подробности см. в статье). Кроме того, недавние исследования позволили обнаружить сонливость по изображениям [7], поэтому возможно совместить Mindless Attractor с таким зондированием; хотя необходимо проверить, эффективен ли Mindless Attractor, даже когда пользователь сонный, его можно использовать гибридным способом, например, в сочетании с явными предупреждениями, в зависимости от состояния пользователя.

Q2: Почему вы рассматривали только высоту и громкость речевого возмущения как вмешательство?

А2. Основываясь на предыдущих исследованиях, мы ожидали, что система будет реагировать на изменения таких факторов, как высота тона, громкость и скорость речи. Однако при рассмотрении возможности использования в реальном времени мы посчитали, что изменение скорости было бы неуместным, поскольку оно не было бы согласованным во времени. Одной из перспектив данного исследования является использование технологии преобразования речи в реальном времени [8], которая не только возмущает эти примитивные параметры речи, но и выполняет более сложные преобразования. Это технология, которая преобразует голос одного человека в голос другого человека в режиме реального времени. Используя эту технологию, можно было бы вмешаться, например, услышать голос учителя, преобразованный в голос другого человека, которого вы знаете, когда вы не концентрируетесь. Мы считаем, что дальнейшее исследование звуковых изменений и их последствий следует проводить в свете этих возможностей.

Q3: Приводит ли долгосрочное использование к возвращению внимания?

А3. Долгосрочные эффекты нуждаются в дальнейшей проверке; Адамс и др. [6] заявили, что подходы, которые работают с Системой 1, обычно имеют долгосрочные эффекты, но нельзя отрицать, что люди могут привыкнуть к изменениям высоты тона и громкости, вызванным безмозглым аттрактором. Однако даже в этом случае мы ожидаем, что описанные выше методы преобразования речи в реальном времени позволят проводить различные вмешательства и сохранят свою эффективность.

Q4. Могу ли я вернуть свое внимание к уроку, даже если он очень скучный и я вообще не хочу его слушать? Это хорошая вещь?

А4. Необходима дальнейшая проверка связи между мотивацией пользователя и эффективностью Mindless Attractor. Однако с точки зрения слуховой технологии увеличения человека, которая позволяет пользователям активно включать и выключать функции, одним из возможных вариантов использования может быть их отключение, когда они не хотят слушать. В то же время нам нужно будет предоставить обратную связь учителям, которые ведут такие классы. Хотя мы не обсуждали такое направление в данном исследовании, ранее нами была разработана система [9], улучшающая качество разговора за счет анализа поведения собеседника в режиме реального времени и обеспечения обратной связи. Мы считаем, что объединение результатов этого исследования и сенсорного модуля, разработанного в этом исследовании, приведет к разработке системы, от которой сможет извлечь пользу и учитель.

Рекомендации

[1] К. Томас и Д. Б. Джаягопи. 2017. Прогнозирование активности учащихся в классах с использованием поведенческих сигналов на лице. В проц. MIE@ICMI. ACM, 33–40.
[2] B. J. Dietvorst, et al. 2015. Неприятие алгоритмов: люди ошибочно избегают алгоритмов, увидев их ошибки. Дж. Эксп. Psychol Gen. 144, 1, 114–126.
[3] Р. Дж. Заторре и Дж. Т. Гандур. 2007. Нейронные специализации речи и высоты тона: выход за пределы дихотомии. Филос. Т. Р. Соц. B 363, 1493, 1087–1104.
[4] Дж. В. Салливан и Ф. Д. Горовиц. 1983. Влияние интонации на внимание младенцев: роль восходящего контура интонации. J. Child Lang.
10, 3, 521–534.
[5] J. Y. Jung and B. A. Mellers. 2016. Отношение американцев к подталкиваниям. суд. Реш. Мак. 11, 1, 62–74.
[6] A. T. Adams, et al. 2015. Бездумные вычисления: разработка технологий для тонкого влияния на поведение. В проц. ЮбиКомп. ACM, 719–730.
[7] R. Ghoddoosian, et al. 2019. Реалистичный набор данных и базовая временная модель для раннего обнаружения сонливости. В проц. CVPR семинары. IEEE, 178–187.
[8] R. Arakawa, et al. 2019. Внедрение преобразования голоса в реальном времени на основе DNN и его улучшения за счет увеличения аудиоданных и устройства в форме маски. В проц. ЮЮЗ. ISCA, 93–98.
[9] Р. Аракава и Х. Якура. 2019. REsCUE: платформа для обратной связи в реальном времени о поведенческих CUE с использованием мультимодального обнаружения аномалий. В проц. ЧИ, Том. 572. АКМ, 1–13.