Привет! Добро пожаловать во вторую часть этой серии, если вы не читали первую статью, вы можете прочитать ее здесь. Как я упоминал в предыдущем посте, в этой статье я представляю функции, которые мы стремимся извлечь из нашего набора данных на основе предыдущей исследовательской литературы по этой теме. Кроме того, я показываю, как мы можем представить наш набор данных в виде графика и мотивируем его важность.

Давай начнем!

Но… что мы ищем?

Во-первых, мы должны иметь представление о том, какие факторы риска выявляют правоохранительные органы и неправительственные организации в такого рода рекламе. Хорошей отправной точкой для понимания этого является отчет UNODC (2020) оторговле людьми, а также отчет Giommoni, L. & Lkwu, R. (2021), в котором приводится список моделей торговли людьми, обычно идентифицируемых в этом типе онлайн-рекламы.

Показатели, предложенные в обеих ссылках, направлены на выявление закономерностей, связанных со свидетельствами групп людей, находящихся под контролем других, отсутствием контроля над суммой оплаты или использованием презервативов жертвами, происхождением жертвы (страна или город), ключевыми словами интерес, места, где предоставляются услуги (вызов/вызов) и тип предлагаемого секса.

В декабре 2021 года с помощью Fundación Pasos Libres мне удалось провести две встречи с двумя прокурорами Перу, которые работают в управлении по борьбе с торговлей людьми в этой стране. С их помощью мы смогли подтвердить этот набор схем торговли людьми, предложенных в обеих ссылках, а также определить первоначальный список функций, которые Chain Breaker пытается найти в этих рекламных объявлениях, которые я сейчас представляю вам:

  1. Есть свидетельства того, что группы людей находятся под контролем других.
  • В рекламе используются местоимения от третьего или первого лица во множественном числе.
  • Один и тот же номер телефона упоминается более чем в одном рекламном объявлении с разными людьми
  • Высокая степень сходства между рекламой секс-работников
  • Секс-работники предлагают рискованные или насильственные сексуальные услуги
  • Несколько человек в одном объявлении
  • Ссылка на веб-сайт или веб-сайт спа-массажа
  • Использование презерватива (жертвы могут не иметь возможности требовать использования презерватива)
  • У жертв есть татуировки или отметины (некоторые из этой преступной организации используют татуировки в качестве имущественного сигнала)
  • Лица жертв скрыты (преступная организация скрывает лица жертв, поэтому правоохранительным органам сложнее идентифицировать пропавших без вести)

2. Получать небольшие платежи или вообще не получать их.

  • Реклама продвигает недорогие секс-услуги

3. Показывайте признаки того, что их передвижение контролируется другими или у них есть ограничения на передвижение

  • Секс-работники предлагают услуги только по вызову
  • Секс-работники переезжают в другие места вместе с другими секс-работниками
  • Секс-работники часто перемещаются из одного места в другое

4. Имеются данные о возможных случаях заражения несовершеннолетних секс-работников.

  • В рекламе используются интересующие слова или фразы, которые намекают на юношеские характеристики секс-работников.
  • Указание размера платья, характерного для несовершеннолетних женщин.
  • Вес человека

5. Имеются данные о возможных случаях торговли людьми с группами риска, такими как иммигранты.

  • Интересующие страны
  • Этнические интересы
  • В рекламе используются интересующие слова или фразы, намекающие на происхождение или этническую принадлежность секс-работников.

В зависимости от веб-сайта, на котором извлекаются рекламные объявления, вычисление предлагаемых функций может быть более или менее проблематичным (например, некоторые веб-сайты включают специальное поле для этнической принадлежности продвигаемого человека). Однако в большинстве случаев нам потребуются умные шаблоны регулярных выражений или хорошие алгоритмы понимания естественного языка для их вычисления.

Кроме того, существуют некоторые схемы торговли людьми, для которых требуется способ анализа изображений, содержащихся в рекламе, например идентификация татуировок или отметин, распознавание скрытых лиц, а иногда идентификация нескольких людей. продвигается в той же рекламе (если мы не можем определить это по тексту рекламы). К сожалению, в настоящее время Chain Breaker не извлекает данные изображения, так как у меня нет возможности хранить такую ​​информацию.

Кроме того, как вы могли заметить, некоторые из этих предлагаемых функций могут быть вычислены с использованием одного экземпляра (например, мы можем определить, написано ли рекламное объявление от третьего лица или нет, только по его тексту), а другие требуют использования нижнего сетевая структура данных (например, если мы хотим определить, используется ли один и тот же номер телефона в нескольких объявлениях).

Использование сетей

Большинство исследований торговли людьми на веб-сайтах со списками игнорируют лежащую в основе графовую структуру данных, поэтому они сосредоточены только на изучении и прогнозировании отдельных рекламных объявлений. Такой подход, с моей точки зрения, довольно хлопотный, поскольку правоохранительные органы и общественные организации чаще всего стремятся найти сети подозрительных объявлений, а не отдельные экземпляры. Кроме того, графическая структура данных многое говорит о том, как действуют эти преступные организации, и поэтому их деятельность легче идентифицировать.

В первой статье этой серии я упомянул, что Chain Breaker хранит информацию в двух базах данных: MySQL (реляционная база данных) и Neo4j (графовая база данных). Первые предназначены для хранения связей между столбцами таблиц данных, а вторые — для хранения связей между отдельными точками данных. Следовательно, для хранения рекламных объявлений, извлеченных с канадского веб-сайта, я рассмотрел следующие объекты и отношения (на рисунке 1 показан пример графа сообщества рекламных объявлений, идентифицированных в наших данных):

# Entities
- Ad
- Phone Number
- Region
- Email
- External website (some advertisements include URLs to other sites such as Only Fans, Twitter, Instagram accounts or private websites).
# Relationships
- HAS_PHONE (link between Ad and Phone)
- HAS_REGION (link between Ad and Region)
- HAS_EMAIL (link between Ad and Email)
- HAS_EXTERNAL_WEBSITE (link between Ad and External website)

Таким образом, используя графическую информацию о данных, мой подход будет сосредоточен на идентификации сообществ с высоким уровнем риска, а не на выявлении рискованной рекламы. Однако это не означает, что мы должны игнорировать информацию, которую может предоставить каждое отдельное рекламное объявление (как раз наоборот!). Фактически, я буду использовать эту информацию, чтобы охарактеризовать выявленные сообщества с точки зрения размера и совокупного риска на основе индивидуального риска каждой из его рекламных объявлений.

Что дальше?

В следующем посте мы углубимся в проблему разработки функций и преобразования набора данных рекламы канадских эскортов с использованием графовой структуры данных, а также отдельных рекламных данных.

Рекомендации

  • Джоммони, Л. и Икву, Р. (2021). Выявление индикаторов торговли людьми на онлайн-рынке секс-услуг Великобритании. "Связь"
  • Глобальный доклад о торговле людьми (2020 г.). "Связь"