Использование стратегий машинного обучения в борьбе с киберзапугиванием

Несколько недель назад я опубликовал в Твиттере сообщение о своем отношении к делу о разводе Ахрафа Хакима. Это было только личное мнение, на которое каждый имеет право, и, конечно же, любой может также прокомментировать свое мнение в твите. Мой шок наступил, когда я начал подвергаться травле в виде грубых слов, оскорблений, насмешек, позора и угроз от людей с противоположным мнением. В значительной степени это было тревожным положением, и просмотр моего комментария ослабил мой моральный дух. Я был почти близок к тому, чтобы удалить его, пока не решил вместо этого отключить уведомления в посте.

Теперь давайте предположим, что вы используете свой любимый сайт социальной сети, когда натыкаетесь на замечание, которое унижает вашу внешность, интеллект или вашу личность. Как бы вы себя чувствовали?

Обиженный, взбешенный и пристыженный!

Ваш ум не может не размышлять: «Кто эти люди? Почему они выбрали меня? Кому я могу сообщить?»

Несмотря на ваше желание сообщить об этих нарушениях, вы не уверены, будет ли кто-нибудь просматривать их и будут ли предприняты соответствующие действия для предотвращения повторения таких нарушений. Тем не менее, есть вероятность, что вы почувствуете себя беспомощным и изолированным.

Вот как киберзапугивание заставляет вас чувствовать себя. Это практика угроз или преследования людей посредством электронного общения. Он имеет тенденцию причинять психологическую и эмоциональную боль независимо от возраста, пола, цвета кожи или происхождения человека.

Для жертв это может привести к пагубным и долгосрочным последствиям, включая снижение самооценки, усиление одиночества, печаль, беспокойство или даже самоубийство.

Главный вопрос сейчас в том, как развивается использование социальных сетей? Скажем ли мы, что это стало средством запугивания и угроз другим? или он станет местом, где те, кто придерживается противоречивых взглядов или ведет другой образ жизни, сталкиваются с крайними преследованиями, вплоть до умственной деградации?

Каждый человек имеет право на свободу слова, самовыражения и убеждений, верно?

Социальные сети должны быть местом, где мы могли бы без ограничений выражать себя, верно?

Почему же киберзапугивание так распространено в современном мире?

Как это можно обуздать? Как мы можем защитить себя и других от угроз в Интернете? Как мы можем сделать Интернет более безопасным и цивилизованным местом для всех?

Одним из решений является применение машинного обучения. Да!! Мы можем вмешиваться и бороться с теми, кто участвует в киберзапугивании, с использованием такого искусственного интеллекта.

В этой статье мы:

Узнайте, как можно использовать машинное обучение для выявления и пресечения травли в Интернете.
Расскажите о нескольких подходах к решению этой задачи, использующих методы машинного обучения.
Расскажите о некоторых направлениях и препятствиях, с которыми могут столкнуться практика машинного обучения и исследования в области обнаружения и предотвращения киберзапугивания.

Давайте начнем!

Что такое киберзапугивание?

Как уже говорилось ранее, это просто запугивание посредством электронного общения. В основном это включает в себя отправку, публикацию или распространение вредоносного, ошибочного или злонамеренного контента о другом человеке. Это также может включать непреднамеренное раскрытие личной или конфиденциальной информации о другом человеке, унижение или позор. Это часто происходит на различных онлайн-платформах, включая социальные сети, приложения для обмена сообщениями, онлайн-форумы, игровые группы и электронную почту.

Это угроза, которую необходимо обуздать, поскольку ее воздействие имеет волнообразный эффект на общество. Ключевые моменты, на которые следует обратить внимание в отношении этой формы издевательств, включают:

Широкая, разнообразная аудитория может быть мгновенно и анонимно охвачена. По сравнению с издевательствами лицом к лицу, их очень трудно избежать, поскольку они могут происходить в любое время и в любое время. Кроме того, у киберхулиганов есть возможность маскироваться под ложными именами или преследовать свои цели на многих платформах.
Репутация жертв этого акта может быть подорвана онлайн-репутацией из-за оставленного цифрового отпечатка. Это может повлечь за собой распространение неправды, лжи или унизительных изображений или видео человека в социальных сетях, которые доступны для всех и могут быть сложными для удаления или удаления. В результате этого самооценка, уверенность и доверие жертвы могут быть необратимо подорваны.
Преследуя людей на основе их пола, цвета кожи, этнической принадлежности, религии, сексуальной ориентации, инвалидности, внешности или других черт, киберзапугивание часто отражает и увековечивает существовавшее ранее социальное неравенство и предубеждения. Это усугубляет неравенство сил между хулиганами и жертвами, из-за чего последним становится труднее защитить себя или получить помощь.

Распространенность и последствия проблемы иллюстрируются следующей статистикой:

Согласно опросу, проведенному Исследовательским центром киберзапугивания, за 30 дней до опроса жертвами стали большое количество американских студентов, что составляет около 36,5% всех зарегистрированных инцидентов.
Другое исследование Comparitech показало, что около 15% родителей признались, что в 2019 году травили кого-то в сети, и около 60% родителей с детьми в возрасте от 14 до 18 лет заявили, что над их детьми издевались.
Последний опрос Panda Security от 2023 года показал, что около 38% людей ежедневно сталкиваются с издевательствами в социальных сетях, а 25% студентов, подвергающихся издевательствам, прибегают к членовредительству, чтобы справиться с этим.

И этот список можно продолжать и продолжать….

Киберзапугивание оказывает пагубное воздействие на психическое здоровье и благополучие жертв, часто приводя к чувству ярости, печали, страха, беспокойства, депрессии, низкой самооценки, изоляции и суицидальным мыслям, а также потенциальному долгосрочному воздействию. на их успехи в учебе, социальные взаимодействия, производительность труда и физическое здоровье.

Из-за этих результирующих воздействий киберзапугивание является одной из самых больших проблем в современном киберпространстве, которую необходимо избегать, управлять и, если это вообще возможно, останавливать.

Это приводит нас к предложенному решению, Машинному обучению!!.

Что такое машинное обучение?

Машинное обучение, которое является ветвью искусственного интеллекта, представляет собой способность машины имитировать разумное поведение человека. С помощью машинного обучения компьютер может имитировать человеческий интеллект, понимая закономерности, делая прогнозы и применяя статистические модели и алгоритмы для оценки закономерностей данных для формулирования соответствующих выводов.

Многие из приложений и сервисов, которые мы используем ежедневно, в том числе чат-боты, интеллектуальный текст, языковой перевод, системы рекомендаций, распознавание изображений, распознавание лиц, фильтрация спама, обнаружение мошенничества и беспилотные автомобили, стали возможными благодаря машинному обучению. . Эта технология нашла множество вариантов использования в различных отраслях и областях, включая здравоохранение, образование, финансы, производство, розничную торговлю, развлечения и многое другое.

Стратегии машинного обучения для обнаружения киберзапугивания в социальных сетях

Существует несколько стратегий выявления оскорбительных слов в социальных сетях. Эти стратегии в большинстве случаев не являются автономными. В большинстве случаев они смешиваются с другими стратегиями для повышения эффективности процесса.

1. Подход к обнаружению с помощью обработки естественного языка (NLP).В этом подходе используется множество инструментов, моделей и методологий для выявления конкретных слов или фраз, связанных с агрессивным поведением. Процессы включают в себя:

Сбор данных. Данные — это основа любой модели машинного обучения. Это основа решения любой проблемы с использованием ML. Поэтому для построения любой стратегии машинного обучения необходимо собрать и отсортировать несколько наборов текстовых данных, содержащих различные типы агрессивных слов/фраз, таких как прямые оскорбления, угрозы или оскорбительные выражения. Источниками этого набора данных являются платформы социальных сетей, журналы чатов и/или онлайн-форумы.
Очистка и предварительная обработка данных. Текстовые данные очищаются и предварительно обрабатываются для удаления ненужных слов, специальных символов, символов, URL-адресов, стоп-слов, знаков препинания и любых других ненужных слов/символов. Это сделано для уменьшения шума и размера набора данных. В последнее время было замечено, что пользователи соцсетей намеренно пишут слова с ошибками, чтобы обмануть систему. Поэтому, чтобы обойти этот трюк, в набор данных добавляются различные грамматические ошибки хулиганских слов. Затем текстовые данные разбиваются на последовательность слов, фраз или предложений, называемых токенами. Которые затем преобразуются в числовое представление.
Разработка признаков. Разработка признаков — это процесс классификации признаков из набора данных путем сравнения их с существующими признаками. Затем используются методы НЛП, такие как частота терминов, обратная частоте документа (TF-IDF), пакет слов, Word2Vec или GloVe, для извлечения соответствующих функций из токенизированных слов или фраз. Этот шаг выполняется для оценки релевантности термина в конкретном контексте.
Аннотация. На этом этапе данные, которые рассматриваются как киберзапугивание, должным образом помечаются, чтобы модель могла точно распознавать и помечать случаи киберзапугивания. Различные категории включают сексуальные, расовые, связанные с внешностью, интеллектом, политические и другие. Аннотированный набор данных далее классифицируется как киберзапугивание низкого, среднего и высокого уровня и не киберзапугивание.
Обучение и оценка модели. Используя размеченные данные, модель машинного обучения обучается с использованием различных алгоритмов классификации, таких как логистическая регрессия, метод опорных векторов (SVM) или нейронные сети. Модель обучена классифицировать текст как киберзапугивание или не киберзапугивание на основе извлеченных признаков. Используя такие показатели, как точность, правильность, полнота и оценка F-1, производительность модели оценивается, чтобы измерить, насколько хорошо она может обнаруживать киберзапугивание.
Определение порога: из-за возникновения ложноположительных результатов (относящихся к киберзапугиванию как к киберзапугиванию) и ложноотрицательных результатов (относящихся к киберзапугиванию как к некибербуллингу) уместно установить соответствующий порог для классификации текстового образца.
Развертывание. Обученная модель развертывается на платформе социальной сети в режиме реального времени для отслеживания и классификации входящих текстовых данных как киберзапугивания или не киберзапугивания. Эта модель также может быть развернута в качестве системы модерации или инструмента мониторинга чата для платформ социальных сетей.

Для улучшения этой модели необходим непрерывный мониторинг. Отзывы пользователей, данные приложений и регулярное вмешательство человека имеют решающее значение для разработки модели обнаружения на основе НЛП.

2. Семантическая и синтаксическая ориентация. Это комплексный подход к обнаружению киберзапугивания. После сбора данных и предварительной обработки набора данных, как описано выше в подходе NLP, используются различные методы для анализа семантики и синтаксических характеристик текстовых данных для захвата оскорбительных слов. Этот подход делится на две категории — семантическая ориентация и синтаксическая ориентация.

Семантическая ориентация. Сюда входит обнаружение киберзапугивания по семантическим характеристикам слов. Процессы включают в себя:

Лексический анализ. На этом этапе сортируются релевантные и распространенные слова, вызывающие агрессию, и используются для создания хранилища слов, представляющих киберзапугивание.
Семантический анализ. Он включает использование концепции точечной взаимной информации (PMI) для измерения семантического сходства между агрессивными словами/фразами и анализируемым текстом. Если есть сходство, то анализируемое слово помечается как оскорбительное. Вложения слов, такие как Word2Vec, наборы слов и GloVe, являются другими полезными инструментами для фиксации семантических отношений.
Анализ настроений. Не все формы киберзапугивания являются семантическими, некоторые из них основаны на настроениях, поэтому для адекватного выявления киберзапугивания необходим другой подход. Этот подход называется анализом настроений. Использование лексикона для анализа настроений помогает выявить негативные настроения. Это сам по себе рискованный подход, поскольку не все негативные настроения можно рассматривать как киберзапугивание.

Синтаксическая ориентация. Сюда входит анализ синтаксических характеристик слов для выявления моделей киберзапугивания в наборе данных. Методы включают в себя:

Тегирование частей речи (POS) — добавление тегов к каждому слову в тексте для определения его синтаксической роли.
Синтаксический анализ зависимостей — анализ грамматических отношений между словами для выявления синтаксических структур, связанных с киберзапугиванием.
Сопоставление с образцом — создание образца, который фиксирует синтаксические структуры издевательств, и сопоставление слов с образцом для выявления любой формы сходства.
Грамматическая структура — анализ синтаксической структуры текста для определения наличия императивных утверждений, угроз и команд.
Структура предложения — анализ предложения для выявления нарушений в использовании восклицательных знаков, ненужной пунктуации и чрезмерного использования заглавных букв в алфавите.

Результаты обоих направлений интегрируются с использованием ансамблевых моделей, и результат определяется заданной моделью. Сочетание семантической и синтетической стратегий ориентации предлагает более надежную систему для обнаружения киберзапугивания и борьбы с ним.

3. Модели машинного обучения с контролем и без контроля: машины опорных векторов (SVM), наивные байесовские модели (NB) и деревья решений (DT) являются примерами моделей машинного обучения с учителем, которые способны учиться на размеченных данных и определять, ни один конкретный экземпляр не занимается издевательствами.

Методы неконтролируемого обучения агрегируют или группируют сообщения в соответствии с их характеристиками с использованием немаркированных данных.

При использовании обеих методик борьба по выявлению и предотвращению буллинга в онлайн-пространствах может вестись более точно и эффективно.

4. Модели глубокого обучения.Модели глубокого обучения, такие как рекуррентные нейронные сети (RNN), долговременная кратковременная память (LSTM), двунаправленная LSTM (BiLSTM) и сверточные нейронные сети (CNN) или их комбинации, также изучают сложные характеристики. из текста, фотографий или видео, чтобы правильно классифицировать эти слова и назначить им соответствующий уровень безопасности.

Эти модели извлекают последовательную и географическую информацию текста. и извлекать сложные нелинейные шаблоны из текста без необходимости извлечения или выбора человеческих признаков.

Недостатком, однако, является то, что обучение моделей может занять много времени и вычислительных ресурсов и может иметь проблемы с переоснащением или недообучением.

Дополнение. Различные методы обнаружения и предотвращения киберзапугивания могут быть более подходящими или успешными в зависимости от данных, предметной области и задачи. Поэтому на этот вопрос нет универсального ответа; скорее, необходимы дополнительные исследования и разработки для изучения и оценки различных стратегий.

Обнаружение киберзапугивания на основе других типов данных

Чтобы обнаружить киберзапугивание из данных изображения, таких как изображения, мемы или снимки экрана, визуальная информация и контекст изображения извлекаются, а затем данные изображения обрабатываются с использованием различных характеристик, включая цвет, форму, текстуру, идентификацию лица и т. д. распознавание объектов. Результаты передаются в различные модели, такие как классификация, сегментация или идентификация объектов, чтобы определить, можно ли классифицировать данные изображения как киберзапугивание.

Примеры:

Анализ данных изображения с использованием атрибутов цвета и текстуры для получения визуальных паттернов, а затем классификация изображения как киберзапугивания или без использования модели CNN; или
Идентификация присутствия людей и вещей в данных изображения с использованием характеристик обнаружения лиц и идентификации объектов, а затем классификация изображения как киберзапугивания или без использования модели SVM.

2. Для обнаружения киберзапугивания из видеопотоков, таких как клипы, прямые трансляции или рассказы, видеоданные обрабатываются с использованием различных характеристик, таких как звук, движение, выражение лица или распознавание голоса. Эти характеристики будут отражать мультимодальную информацию и интерактивность видео. Затем эти признаки можно использовать для классификации, сегментации или идентификации действий в видео, чтобы определить, содержит ли оно киберзапугивание или нет.

Примеры:

Использование модели CNN для определения того, является ли видео киберзапугиванием, после извлечения акустических и визуальных индикаторов из видеоданных с использованием характеристик звука и движения.
Использование распознавания голоса и выражения лица — характеристик для распознавания эмоций и слов говорящего в видеоданных, а затем использование модели RNN для определения того, содержит ли видео киберзапугивание или нет.

Ограничения машинного обучения для обнаружения и предотвращения киберзапугивания.

Трудно достичь высокой точности при работе с неясными или сложными сценариями.
Отсутствие общедоступных аннотированных наборов данных для обнаружения и классификации серьезности киберзапугивания, особенно для языков и областей с ограниченными ресурсами. Это ограничивает возможности обучения, оценки, сравнения и сравнительного анализа производительности различных методологий и моделей.
В зависимости от платформы, обстановки, культуры и группы поведение и язык киберзапугивания могут быть разнообразными и сложными. Это затрудняет выявление киберзапугивания, его определение и понимание его происхождения и последствий.
Юридические, моральные и социальные последствия использования машинного обучения для выявления и предотвращения киберзапугивания, включая безопасность и конфиденциальность данных и пользователей, справедливость и подотчетность моделей и суждений, открытость и объяснимость процессов и результаты и возможность злоупотребления технологиями.

Будущие направления исследований и применения машинного обучения

Да, мы все знаем, что ограничения бросаются в глаза. Но откажемся ли мы от этой технологии в борьбе с кибербуллингом? Конечно нет! С момента зарождения технологий в нашем мире каждый инновационный шаг, направленный на решение проблемы в обществе, сопровождался множеством проблем. Однако, благодаря постоянным итерациям и развитию, эти технологии в нескольких отношениях произвели революцию в нашем мире. В этой борьбе с киберзапугиванием с использованием машинного обучения, что лучше всего предпринять, чтобы уменьшить препятствия, которые все еще существуют?

Рассмотрим несколько:

Мультимодальное машинное обучение. Чтобы выявить и остановить киберзапугивание, эти подходы могут объединять и анализировать несколько форм данных, включая текст, фотографии, видео и аудио. Для этого необходимо извлечь из данных дополнительный контекст и информацию, а также обработать сценарии двусмысленного или сложного киберзапугивания с участием многих каналов связи. Например, мультимодальная модель машинного обучения может использоваться для выявления и прекращения киберзапугивания в мультимедийных материалах, таких как скриншоты, мемы или изображения.
Простые и адаптируемые методы машинного обучения. Должны быть объяснимые модели машинного обучения, которые могут давать четкие и понятные объяснения своих прогнозов и рассуждений, чтобы сделать их более ясными и простыми для понимания. Это может сделать пользователей и заинтересованных лиц более уверенными в методах, что облегчит их оценку и усовершенствование. В качестве примера рассмотрим, как можно использовать методы обработки естественного языка для объяснения на естественном языке модели обнаружения киберзапугивания.
Моральное машинное обучение. Необходимость в этических моделях машинного обучения имеет решающее значение, поскольку этические соображения могут ограничивать машинное обучение. Это может гарантировать, что процедуры являются разумными, подотчетными и ответственными. Они также могут решать моральные и социальные проблемы, возникающие при использовании машинного обучения для выявления и прекращения киберзапугивания, такие как конфиденциальность данных, разрешение, право собственности, предрассудки и травмы.

Заключительные слова

Киберзапугивание, от которого страдают миллионы людей, является серьезной и широко распространенной проблемой. Низкая самооценка, повышенное одиночество, грусть, тревога и даже самоубийство — вот лишь некоторые из тяжелых и долговременных последствий, которые оно может иметь для своих жертв. Мы должны использовать эффективные методы для выявления и пресечения этой угрозы в социальных сетях, чтобы решить эту проблему.

Из этой статьи разумно сделать вывод, что одним из наиболее эффективных подходов к прекращению киберзапугивания и управлению им является использование машинного обучения. Машинное обучение все еще находится на ранней стадии, поэтому это пока не лучший ответ. Как технология, она будет продолжать развиваться и расширять свои возможности и методы.

Наконец, по сравнению с подходами, не связанными с машинным обучением, машинное обучение показало более высокие показатели успеха в борьбе с киберзапугиванием. Модели машинного обучения будут разрабатываться, объединяться и оптимизироваться для снижения и управления киберзапугиванием до абсолютного минимума по мере развития технологий и проведения дополнительных исследований и исследований.

Мы все можем извлечь выгоду из более безопасной и цивилизованной онлайн-среды, если будем работать вместе.