Понимание

Помощь разработчикам в интерпретации отчетов обычных пользователей для борьбы с алгоритмической предвзятостью.

Сроки реализации проекта

сентябрь — декабрь 2021 г.

Члены команды

Рита Данг (MHCI)
Джошуа Субер (MHCI)
Юи Чо (промышленный дизайн)
Винод Редди (MHCI)

Исполнительные заявления Заявление

Наше исследование показало, что людям, которые работают непосредственно с наборами данных отзывов пользователей, часто приходится тратить много времени на просмотр больших объемов беспорядочных качественных данных, их классификацию и определение их контекста и уровня релевантности. В результате, сталкиваясь со значительными временными ограничениями, им часто не хватает времени для проверки своих аналитических решений путем сотрудничества с коллегами или более глубокого изучения контекста.

В целом, они хотят иметь возможность эффективно идентифицировать пользовательские отчеты, наиболее релевантные их текущей задаче или проекту, не нарушая существующий рабочий процесс и процессы мышления.

Проблема

Обнаружение предвзятости в алгоритмах машинного обучения — это постоянное проблемное поле, которое еще предстоит полностью изучить. В этом предварительном исследовании моя команда подходит к проблеме алгоритмической предвзятости через потребности разработчиков.

Основная цель исследования этого проекта состояла в том, чтобы изучить способы проверки отчетов от обычных пользователей для борьбы с алгоритмической предвзятостью. Однако что происходит после того, как эти пользовательские отчеты собраны. Интерпретация отчетов

Визуализация выше показывает количество твитов, сделанных с течением времени. В августе 2020 года наблюдается всплеск. Это свидетельствует о ранней реакции на дело Twitter Cropping. Хотя в этот период обсуждались и другие случаи алгоритмической предвзятости, больше всего откликов получили дела, связанные с Twitter. Исходя из этого, наша команда пришла к выводу, что пользователи с большей вероятностью сообщат о проблемах, связанных с используемой в настоящее время платформой.

Участники и критерии набора

Для нашего набора участников мы в основном нацеливались на людей, которые обладали знаниями или ценным опытом в области машинного обучения и анализа качественных наборов данных.

В наш пул участников вошли:

1 студент-дизайнер (бакалавриат)
1 модератор (Реддит)
Я инженер-программист (Facebook)
8 аспирантов (PhD и Masters)

Методы

На каждом этапе нашего исследования мы использовали определенный метод для получения информации. Среди различных использованных методов: [мысли вслух, контекстное интервью, быстрые свидания] помогли нам понять болевые точки и области возможностей, которые продвинули наше исследование вперед.

Полуструктурированные интервью и размышления вслух
Направленное повествование и анализ артефактов
Раскадровка и быстрые свидания
Картирование заинтересованных сторон, карта эмпатии, диаграмма сходства

Доказательства и идеи

«У Reddit есть встроенный спам-фильтр, и иногда из-за этого процесса теряются качественные сообщения».

Вывод № 1. Автоматизированная модерация – операция первой линии, однако для обеспечения справедливости часто требуется вмешательство человека.

При попытке просмотреть большое количество отчетов и сообщений совместная работа не масштабируется. Работа ведется в основном индивидуально

Вывод № 2. Оценивать отчеты пользователей совместно сложно из-за масштаба. Метод обмена знаниями может облегчить эту боль.

Просмотр нескольких комментариев утомляет, потому что модераторы и разработчики совмещают свои обязанности со своей профессиональной карьерой.

Вывод № 3. Совмещение обязанностей и управление рабочей нагрузкой — главная проблема при добавлении интерпретации пользовательских отчетов в расписание разработчиков.

Если модераторы не рассмотрят сообщение достаточно быстро, проблема может выйти из-под контроля (Время имеет важное значение)

Трудно быть последовательным в суждениях при просмотре большого количества отчетов и постов (например, может быть сотня комментариев в час).

Вывод № 4. Исправление случаев пагубной предвзятости зависит от времени из-за растущего воздействия, которое возможно при длительном контакте с интернет-сообществом.

Модераторы отдают приоритет сообщениям с несколькими пользовательскими отчетами, поскольку это сигнализирует о том, что сообщество не согласно с сообщением.

Вывод № 5. Пользовательские отчеты в основном используются в качестве средства оповещения о потенциальной проблеме. Вместо того, чтобы пытаться интерпретировать набор неоднозначных пользовательских отчетов, разработчики могут извлечь выгоду из сигнализации/уведомления о соответствующей информации.

Последствия/решения

Наше решение представляло собой подключаемый модуль умного помощника, предназначенный для сканирования огромных объемов качественных данных в виде пользовательских отчетов и выявления наиболее насущных проблем, связанных с конкретной функцией или инструментом, над которым работает разработчик, для следующего развертывания.

Предоставляя информацию разработчикам одновременно, они могут обрабатывать и решать их, не прерывая гибкий рабочий процесс. Уведомления помогут определить шаблоны предвзятости и предложить потенциальные корректирующие решения для предстоящего выпуска. Это также позволит им поделиться этим пониманием с другими заинтересованными сторонами в команде, чтобы привести всех к одной и той же странице.

Еще одна область, в которой это решение может быть доработано, — это использование других методологий оценки. В настоящее время существует множество операций анализа настроений, которые помогают классифицировать токсичность определенных онлайн-высказываний (например, автоматическая модерация Reddit). Insight может реализовать тот же метод для классификации кода машинного обучения и уведомления разработчиков, когда они создают токсичное/предвзятое программирование.

Чтобы увидеть больше моих проектов:

Джошуа Субер
Студент магистратуры по взаимодействию человека и компьютера в Университете Карнеги-Меллон, www.joshuasuber.com