В течение последнего месяца я работал над проектом, целью которого является предоставление обзора в стиле дашборда всех инцидентов с жестокостью полиции, которые упоминаются на платформах Twitter или Reddit. Проект был задуман и инициирован Human Rights First, независимой некоммерческой организацией, которая защищает права человека в Соединенных Штатах. Идея проекта действительно блестящая, поскольку приложение пытается отслеживать незаконные случаи жестокости полиции, используя методы науки о данных, и делает свои выводы доступными для всех через веб-сайт в стиле панели инструментов. На данный момент проект находится на стадии разработки.

Реализация идеи сопряжена с рядом технических проблем. Перед обсуждением проблем полезно рассмотреть, как приложение работает внутри и какие основные компоненты оно содержит. О, высокий уровень, есть три упорядоченных шага, выполненных внутри, прежде чем данные будут представлены конечному пользователю.

  • Твиты и сообщения Reddit, которые содержат определенные ключевые слова, связанные с деятельностью полиции, регулярно загружаются в базу данных.
  • Модель машинного обучения для классификации документов пытается классифицировать извлеченные данные как описания инцидентов с жестокостью полиции.
  • Сообщения, которые классифицируются как положительные, проходят проверку администратором, чтобы подтвердить их актуальность, а также определить место инцидента.

Технические проблемы возникают на втором и третьем этапах. Во-первых, это точность модели классификации, которая фильтрует данные. Поскольку тема жестокости полиции расплывчата и легко интерпретируется, существуют большие различия в том, как могут быть сформулированы сообщения пользователей. Чтобы классификационная модель учитывала большинство случаев и классифицировала как можно меньше ложноотрицательных результатов, она должна очень хорошо обобщать. Как правило, чем больше обучающих данных доступно для модели, тем лучше она обобщает. Во время работы над продуктом я попытался решить проблему нехватки обучающих данных, введя дополнительные источники данных. В частности, я создал внутреннюю функциональность, которая извлекает дополнительные данные из нескольких сообществ Reddit, посвященных обсуждению случаев жестокого обращения с полицией. Эти дополнительные данные помогут модели лучше обобщить и повысить ее точность. Что касается продукта из реального мира, будет крайне важно распознать и собрать как можно больше случаев жестокого обращения со стороны полиции.

Вторая проблема связана с третьим этапом процесса. Когда администратор-человек утверждает случаи, классифицированные моделью как положительные, ему необходимо отслеживать то, что он утвердил ранее, чтобы избежать дублирования случаев в конечном выводе, отображаемом для конечного пользователя. Во времена, когда количество дел выше, чем обычно, как это было, когда Джордж Флойд был убит, а встречи с полицией были очень частыми на фоне массовых общественных беспорядков, может быть довольно сложной задачей отслеживать все дела и избегать дублирования. Потенциальным решением этой проблемы может быть отслеживание именованных объектов, таких как города или имена, которые упоминаются в утвержденных случаях. Приложение будет анализировать входящие данные на наличие именованных сущностей и предупреждать администратора, если кейсы с такими же сущностями были одобрены ранее. Хотя это не устранит полностью вероятность дублирования записей, но поможет их избежать.

На данный момент приложение функционирует лишь на долю желаемой производительности, но это, безусловно, хорошее начало. Мое время работы над этим приложением подошло к концу, и скоро другая команда разработчиков продолжит то, на чем остановилась моя команда. План улучшений, которые они принесут, состоит в том, чтобы решить проблемы, которые я представил выше, а также попытаться внедрить лучший метод отслеживания местоположения для утвержденных случаев. Для последнего планируется внедрить твиттер-бота, который будет подсказывать пользователям об инцидентах, которые они описывают в своих твитах.

Я очень благодарен за то, что мне удалось поработать над этим продуктом, и искренне надеюсь, что он найдет большую аудиторию в будущем.