Как мы боремся с издевательствами с помощью данных и технологий

Последние 2 года наша команда была занята созданием технологии, которая может помочь родителям в воспитании детей 21 века. Распространение технологий привело к тому, что дети стали проводить большую часть времени онлайн, поставив многих родителей в новое и неудобное положение. Если раньше родители могли видеть многие взаимодействия своих детей с друзьями и сверстниками, то теперь все больше из них происходит в Интернете.

Конечно, онлайн-мир имеет много положительных моментов, предлагая поддержку, информацию и развлечения. Но у этого есть и свои виновники: кажется, не проходит и недели, чтобы мы не слышали о трагическом происшествии, вызванном онлайн-активностью. Будь то хищники, издевательства или побуждение - сегодня дети подвергаются опасностям не только в автономном режиме, но и в Интернете. Именно эти проблемы вдохновили нас на создание VISR, чтобы уведомлять родителей о потенциальных проблемах, включая издевательства и проблемы с психическим здоровьем. Чтобы открыть линии связи между родителями и детьми, чтобы помочь им ориентироваться в технологиях безопасным и продуктивным способом.

Сегодня мы выпустили нашу значительно улучшенную систему обнаружения предупреждений. Это, наверное, наше самое значительное обновление на сегодняшний день. Хотя прямое влияние сегодняшнего выпуска будет заключаться в значительном улучшении обнаружения издевательств, это обновление - это еще не все. Эта новая система закладывает основу для самообучения и моделирования прогнозирования на основе исторических данных и данных о населении с течением времени.

Как мы это делаем

В связи с этим важным достижением мы подумали, что найдем время, чтобы рассказать немного больше о том, над чем мы работаем, и о некоторых усилиях, которые были вложены в обновленную систему идентификации издевательств.

При создании алгоритма, который смотрит на текст и другие метаданные, а затем дает наилучшее предположение о том, должен ли родитель на него смотреть, нам нужно думать не только о том, какие математические методы будут работать лучше всего. Недостаточно построить умный алгоритм, если алгоритм в первую очередь не ищет правильные вещи.

В случае издевательств нам нужно было найти примеры, когда дети участвовали в издевательствах, защищали жертв издевательств, поддерживали хулиганов (например, лайкали оскорбительный комментарий) и сообщали о случаях издевательств, которые произошли в офлайн-режиме. И нам нужно было их найти много. Это непросто. Чтобы решить эту проблему, мы собрали команду молодых людей, которые знают, когда подростки запугивают, даже когда они используют язык, который мы, взрослые, не понимаем.

Как тренировать свой… компьютер

Затем начинается увлекательный разговор между людьми и компьютерами. Мы снабдили компьютер большим набором общедоступных сообщений в Twitter, Facebook, Youtube и т. Д., Которые, по нашему мнению, могут быть примерами издевательств. Мы нашли множество примеров оскорбительных шуток, гневных комментариев, пламенных войн и т. Д. Из общедоступных источников и обучили компьютер искать похожие сообщения в наших собственных пользовательских данных. Компьютер обнаружил множество примеров того, что он считал издевательством, в данных наших собственных пользователей, которые были полностью анонимны. Но на этом этапе мы не поверили оценке компьютера, поэтому попросили группу молодых людей подтвердить решение компьютера. Сначала команда чувствовала, что компьютер довольно часто работает неправильно. Поэтому мы исправили решения компьютера и снова его обучили. На этот раз все было немного лучше, но все же недостаточно. Итак, мы повторили процесс. В конце концов, мы дошли до того, что, когда компьютер мог сказать, что пост в социальной сети выглядел как издевательство, мы, люди, обычно соглашались. В тот момент мы знали, что у нас есть что-то действительно хорошее!

Изучение грамматики

Но есть и другая часть истории. Иногда алгоритмы могут учиться сами по себе, но обычно им нужна рука помощи. В конечном итоге алгоритмы ищут доказательства издевательств, взвешивают их вместе и затем выносят суждение: это издевательство или это не издевательство. Некоторые из используемых методов взяты из линейной алгебры, некоторые из теории вероятностей, некоторые из нейробиологии и некоторые из теоретической логики.

Хотя они могут быть очень эффективными, никто из них не знает, что ЗАГЛАВНЫМИ СЛОВАМИ ЛЮДИ ЭФФЕКТИВНО КРИЧУТ НА ДРУГ ДРУГА. Поэтому нам пришлось сказать алгоритмам, чтобы они обращали внимание на слова, написанные заглавными буквами. Точно так же такие выражения, как «ты идиот», имеют совершенно разные значения, когда они выражаются отрицательно, например, «ты не идиот». Я мог бы надеяться, что алгоритмы научатся этому сами, но почему бы им не помочь? Итак, мы ввели в систему немного грамматики английского языка. Наши алгоритмы знают, что «идиот» и «идиоты» имеют один и тот же корень, точно так же, как «go», «going» и «go» имеют один и тот же корень. Поэтому, если мы видим такие предложения, как «путь к идиотам», мы также узнаем что-то о таких предложениях, как «хорошо, идиоты».

Все это звучит здорово, но работает ли это? Иногда предоставление алгоритму дополнительной помощи только усугубляет ситуацию. Алгоритмические решения хороши в теории, но не всегда так хороши на практике. Поэтому мы проводим огромное количество тестов.

Тестируйте, тестируйте и снова тестируйте

Мы используем 10-кратную перекрестную проверку всего. То есть сначала мы берем все наши примеры издевательств и делим их на две группы: i) обучающая группа и ii) проверочная группа примеров, чтобы определить, что наше обучение было успешным. Затем мы откладываем группу проверки в сторону и забываем о ней, пока не закончим наши тесты.

Затем мы берем обучающую группу и делим ее десятью разными способами на новые обучающие и тестовые группы. В каждой из этих десяти групп мы тренируемся по одной части, а затем тестируем другую. Тест дает нам число, которое говорит нам, насколько хорошо работает алгоритм. Мы повторяем это со всеми десятью тренировочно-тестовыми группами и получаем 10 чисел, показывающих нам, насколько хорошо работает алгоритм. Мы берем среднее из этих 10 чисел и получаем довольно хорошее представление об успехе алгоритма. Затем мы таким же образом сравниваем разные алгоритмы и находим лучший. Наконец, мы берем самый лучший алгоритм и извлекаем ту группу проверочных примеров, которую мы отложили в сторону, когда начали. Мы проводим последний тест, чтобы убедиться, что у нас самый лучший алгоритм.

Этот процесс преподносит нам много новых сюрпризов. Например, мы обнаружили, что, глядя на тревожных подростков, полезно знать их возраст, но не знать их пол. Напротив, это помогает узнать пол хулигана, но не очень помогает узнать его возраст. Это почему? Мы понятия не имеем! Но именно поэтому мы проводим так много тестов. В конечном итоге подобные исследования приведут нас к новому прорыву, который, как мы верим, поможет нам еще лучше понять и помочь людям оставаться в большей безопасности и здоровьем в будущем.

Эта статья была написана Дэвидом Ван Брувайном, ведущим ученым по НЛП в VISR, который предоставляет профилактическое оздоровительное приложение, предназначенное для защиты детей в Интернете.

Вам понравилось узнавать, как мы используем науку о данных? Пожалуйста, прочтите статью, чтобы помочь нам рассказать историю большему количеству людей! Спасибо :) ❤

Как мы боремся с издевательствами с помощью данных и технологий

Как мы это делаем

Как тренировать свой… компьютер

Изучение грамматики

Тестируйте, тестируйте и снова тестируйте

Вопросы по теме