Обучение «робота» обнаруживать ксенофобию в Интернете

Робот? Не совсем.

Машинное обучение (ML) и искусственный интеллект (AI) - два модных слова, особенно когда речь идет об инновациях в области данных. Искусственный интеллект - это способность машин имитировать когнитивные процессы человека. Слово искусственный происходит от идеи, что машины неразумны сами по себе. За ними стоят люди, программирующие их для выполнения определенных задач. Тем не менее, в зависимости от сложности их программирования, некоторые машины более умны, чем другие. Это означает, что некоторые машины нужно запрограммировать только один раз, и они будут продолжать выполнять задачи или увеличивать сложность выполняемой задачи самостоятельно. Для энтузиастов данных и новаторов, работающих в гуманитарном секторе, ИИ расширяет возможности обработки данных более точным и своевременным образом - данными, которые могут помочь высшему руководству быстрее принимать решения или лучше подготовить наши команды на местах к возможным непредвиденным обстоятельствам.

Согласно TechTarget, робот - это машина, предназначенная для автоматического выполнения одной или нескольких задач со скоростью и точностью. Некоторым роботам, например, требуется только простое программирование для выполнения определенных повторяющихся задач, и иногда им не обязательно требуется встроенный в них искусственный интеллект. Это случай робота на сборочной линии. Однако не весь ИИ обязательно применяется в роботе. Например, иногда ИИ применяется в компьютере или мобильном устройстве. А иногда - когда ИИ запрограммирован - он может «учиться» на исходном программировании, а затем самостоятельно решать задачи. Примером этого является Siri на вашем iPhone. Siri - это форма прикладного искусственного интеллекта, способная «изучать» голосовые шаблоны и преобразовывать их в диктовку. Он распознает язык с местным акцентом, выполняет задачу - например, ищет погодные условия в конкретном городе. Siri синтезирует миллионы точек данных, взятых из разных слов, языков и даже из разных акцентов по всему миру, становясь «умнее» и каждый раз распознавая все больше закономерностей. Затем Siri использует методы машинного обучения (ML) для обработки всего этого объема данных и отвечает за считанные секунды - даже если один и тот же вопрос задается по-разному с другим тоном - как сегодня погода? Будет дождь? Холодно? Чтобы вычислить ответ: принесите зонтик.

Приложения машинного обучения

В мире маркетинга машинное обучение используется для обработки больших объемов информации с целью принятия решений о том, как разрабатывать новые продукты и улучшать услуги для клиентов. Однако в гуманитарном секторе приложения ИИ - это новая область для исследований. Искусственный интеллект и машинное обучение позволяют гуманитариям, новаторам и специалистам по данным компилировать, обрабатывать и визуализировать огромные объемы данных за считанные секунды. Многие чрезвычайные гуманитарные ситуации являются сложными, и лица, оказывающие первую помощь, часто имеют лишь частичную информацию для быстрого реагирования. Чтобы получить полное представление о сложной ситуации, необходимо проанализировать множество различных частей и элементов. К сожалению, у людей нет ни времени, ни ресурсов, чтобы собрать всю разнообразную информацию в короткие сроки, необходимые для ответа. Время от времени решения принимаются с частичными доказательствами, чтобы действовать быстро и спасать жизни. И именно здесь могут помочь машины.

Например, в настоящее время сотрудники и партнеры УВКБ ООН тратят время, деньги и человеческие ресурсы на анализ с разных точек зрения и точек зрения проблемы местной интеграции: в социальном, экономическом, юридическом и культурном плане. Это делается для того, чтобы ответить на вопросы, связанные с целесообразностью и целесообразностью интеграции подмандатных УВКБ ООН лиц в местные сообщества.

Большие данные: проблемы и возможности в гуманитарном контексте

В зависимости от контекста и для того, чтобы иметь полное представление о конкретной ситуации, гуманитарии часто используют прокси: точки данных, которые сами по себе не имеют прямого отношения, но которые предоставляют выборочные идеи по некоторым вопросам, которые им совершенно неизвестны. Часто эти идеи можно найти в традиционных формах данных: вторичных данных, информации переписи, обследований, заметок для обсуждений в фокус-группах, записей интервью, посещений домохозяйств или интервью с ключевыми информантами. Тем не менее, дополнительную информацию можно также найти в других формах данных, нетрадиционных наборах данных: радиопередачи, наблюдения Земли и геопространственные данные, записи данных колл-центров / вызовов, дистанционное зондирование, носимые устройства, загрузки, новостные агентства и социальные сети. просто упомянуть несколько.

Объем данных, производимых этими нетрадиционными источниками данных, огромен и обычно «тяжелый» с точки зрения: 1) хранилища данных, занимающего большие диски / пространство на сервере (том); 2) производится с короткими интервалами - часто даже с секундными интервалами (скорость); 3) поставляется в разных форматах, например, в голосовых записях или в произвольном тексте (разнообразие) и часто; 4) информация создается с одной единственной и иногда предвзятой точки зрения / ракурса (проверка). По этой причине эти нетрадиционные источники данных также известны как источники больших данных - с четырьмя буквами «V», которые являются основными атрибутами больших данных.

Например, в социальных сетях Twitter производит огромное количество данных за считанные секунды. Подсчитано, что в год создается около 200 миллиардов твитов (6000 твитов в секунду). Количество энергии и времени, которые потребуются нашим коллегам из УВКБ ООН, особенно нашим коллегам по связям с общественностью, для сбора, обобщения, анализа и визуализации результатов для ответа на конкретные вопросы, станет проблемой для их и без того обременительной работы. Некоторые из них сделали это вручную, собирая значимые идеи. Сбор данных из социальных сетей важен для гуманитарных организаций, таких как УВКБ ООН, для понимания наиболее неотложных потребностей лиц, вызывающих озабоченность, и установления с ними двусторонней связи. Но для расширения этого процесса и, что наиболее важно, чтобы иметь возможность количественно оценить его с определенной степенью статистической значимости, гуманитарии могут полагаться на машины: для выборки, компиляции и каталогизации данных в режиме реального времени.

Обучение машины обнаружению ксенофобии

В 2015 году Служба инноваций УВКБ ООН объединилась с UN Global Pulse, инициативой Организации Объединенных Наций в области анализа больших данных, чтобы получить дополнительную информацию о быстро меняющейся обстановке: ситуации в Средиземноморье. Первоначально предназначенные для анализа намерений для прогнозирования перемещений, команды обратились к данным Twitter, чтобы выявить закономерности, которые могут помочь получить представление о трансграничных перемещениях. Команды использовали машинное обучение, чтобы «находить», «читать», «компилировать» и «каталогизировать» твиты, найденные в определенных географических точках и на определенных языках (например, арабском, фарси, английском, французском, греческом, немецком), пытаясь найти движение. намерения или комментарии по поводу предоставления услуг, которые будут стимулировать их движение. Хотя некоторые комментарии относились к делу, выборки найденных твитов не хватило для того, чтобы предоставить надежные математические доказательства.

Однако аппарат обнаружил аномалии комментариев, которые особенно обострились во время террористических инцидентов в Европе. Каждый раз, когда происходил новый инцидент - Мюнхен, Париж, Берлин, чтобы назвать некоторые из ключевых событий, - сообщения с негативным отношением к беженцам появлялись в разных частях мира. Иногда эти посты даже имели негативную ассоциацию беженцев с инцидентами. Затем команды переобучили машину с предвзятостью, основанной на правах человека: найти комментарии , которые вызовут сильную неприязнь или ненависть к людям, которые воспринимаются как посторонние, незнакомцы или иностранцы для группы, сообщества или нации на основе их предполагаемое или реальное происхождение, национальное, этническое или социальное происхождение, раса, цвет кожи, религия, пол, сексуальная ориентация или другие основания. Проявления ксенофобии включают акты прямой дискриминации, вражды или насилия, а также подстрекательство к ненависти. Ксенофобные действия являются преднамеренными, поскольку их цель - унизить, очернить и / или причинить вред человеку (лицам) и связанной группе людей (УВКПЧ). Команда научила машину учиться читать, компилировать, классифицировать, анонимизировать и агрегировать различные типы сообщений Twitter на разных языках и в разных городах, а также количественно определять как ксенофобию, так и комментарии, удобные для интеграции.

Мы подготовили Белую книгу под названием Социальные сети и принудительное вытеснение: аналитика больших данных и машинное обучение, чтобы поделиться процессом и количественными результатами экспериментов с машинным обучением для понимания масштабов настроений в регионе. Выводы этого документа могут служить анализом единого источника данных (Twitter), а также единым фрагментом головоломки о том, что принимающие сообщества думают о вызывающих озабоченность лицах, таких как беженцы, прибывающих в их страны. Его можно использовать в качестве доказательства гуманитарным организациям для подготовки пропагандистской кампании или разработки рекомендаций по политике, чтобы лучше противодействовать ксенофобии. Для групп УВКБ ООН это могло бы помочь им руководить своими инициативами по защите на уровне сообществ, понимая основные проблемы, с которыми сталкиваются беженцы, прибывающие в новую страну.

Обещание машинного обучения: больше вопросов, чем ответов

Используя машинное обучение, обе команды получили снимок доказательств по вопросам, связанным с интеграцией только для одного региона. Однако в науке о данных - где данные - это король - анализ данных всегда вызывает больше вопросов. Проанализировав некоторые результаты эксперимента, команды задумались над следующими вопросами: A) как мы можем использовать ИИ в целях защиты интересов в других регионах? B) h как мы можем помочь другим агентствам и организациям использовать эти инструменты для понимания сложных контекстов, в которых социальные сети не распространены, или нет электричества / подключения? Кроме того, когда растет больше стен, C) как мы можем использовать ИИ для анализа больших данных и создания контрарратива для разжигания ненависти? И, наконец, D) как мы можем реализовать интеграцию и противодействовать ксенофобии в цифровом мире? Если у вас есть ответ на любой из этих вопросов или вы хотите поэкспериментировать с нами, чтобы ответить на них, не стесняйтесь обращаться к нам. У нас есть несколько «роботов», которые могут помочь с некоторыми задачами.

Изначально это эссе было опубликовано в недавно выпущенном отчете Служба инноваций УВКБ ООН: обзор за 2017 год. В этом отчете освещаются и демонстрируются некоторые инновационные подходы, применяемые организацией для решения сложных проблем беженцев и открытия новых возможностей. Вы можете просмотреть полный микросайт Обзор года и скачать публикацию здесь.

Обучение «робота» обнаруживать ксенофобию в Интернете

Приложения машинного обучения

Большие данные: проблемы и возможности в гуманитарном контексте

Обучение машины обнаружению ксенофобии

Обещание машинного обучения: больше вопросов, чем ответов

Вопросы по теме