Мы взломали Панамские документы с 400 человеческими мозгами. Может ли ИИ помочь нам в следующий раз?

Новое партнерство между журналистами и учеными Стэнфордского машинного обучения направлено на улучшение процесса журналистских расследований. Вот что мы узнали на данный момент.

По мере приближения третьей годовщины Панамских документов, гигантской финансовой утечки, которая свела на нет два правительства и пробурила самую большую дыру в тайне налоговой гавани, я часто задаюсь вопросом, какие истории мы пропустили.

Panama Papers стали вдохновляющим примером трансграничного сотрудничества СМИ и использования технологий с открытым исходным кодом для создания репортажей. Как сказал один из моих коллег: «По сути, у вас в руках был гигантский и беспорядочный объем данных, и вы использовали технологии для распространения своей проблемы - чтобы сделать ее проблемой для всех». Он имел в виду 400 журналистов, включая его самого, которые более года работали вместе в виртуальной редакции, чтобы разгадать тайны, скрытые в сокровищнице документов панамской юридической фирмы Mossack Fonseca.

Эти репортеры использовали технологию интеллектуального анализа данных с открытым исходным кодом и графические базы данных для обработки 11,5 миллионов документов в десятках различных форматов. Тем не менее, большую часть размышлений в этом уравнении выполняли журналисты. Технологии помогли нам организовать, индексировать, фильтровать и сделать данные доступными для поиска. Все остальное сводилось к тому, что эти 400 мозгов коллективно знали и понимали о персонажах и схемах, подставных лицах, подставных компаниях и банках, которые были причастны к секретному офшорному миру.

Если задуматься, это все еще был трудоемкий и трудоемкий процесс. Репортеры должны были вводить свои запросы один за другим на платформе, подобной Google, в зависимости от того, что они знали.

А как насчет того, чего они не знали?

Перенесемся на три года вперед, в быстро развивающийся мир алгоритмов машинного обучения, которые меняют способ работы людей - от сельского хозяйства до медицины и военного бизнеса. Компьютеры узнают то, что мы знаем, а затем помогают нам находить непредвиденные закономерности и предвосхищать события способами, которые нам было бы невозможно сделать в одиночку.

Как бы выглядело наше исследование, если бы мы использовали алгоритмы машинного обучения в Панамских документах? Можем ли мы научить компьютеры распознавать отмывание денег? Может ли алгоритм отличить законную ссуду от поддельной, предназначенную для перетасовки денег между организациями? Можем ли мы использовать распознавание лиц, чтобы легче определить, какие из тысяч копий паспортов в сокровищнице принадлежат избранным политикам или известным преступникам?

Ответ на все это - да. Более важный вопрос заключается в том, как мы можем демократизировать эти технологии искусственного интеллекта, которые сегодня в значительной степени контролируются Google, Facebook, IBM и некоторыми другими крупными компаниями и правительствами, и полностью интегрировать их в процесс журналистских расследований в редакциях новостей любого размера?

Один из способов - партнерство с университетами. Прошлой осенью я приехал в Стэнфорд по программе Стипендия Джона С. Найта по журналистике, чтобы изучить, как искусственный интеллект может улучшить журналистские расследования, чтобы мы могли более эффективно раскрывать правонарушения и коррупцию.

Демократизация ИИ

Мои исследования привели меня в Стэнфордскую лабораторию искусственного интеллекта, а точнее в лабораторию Проф. Крис Ре , гениальный получатель гранта Макартура, чья команда проводит передовые исследования в области методов машинного обучения, называемых слабым контролем . Цель лаборатории - ускорить и упростить внедрение того, что человек знает об окружающем мире, в модель машинного обучения, - объясняет Алекс Ратнер, аспирант, возглавляющий проект лаборатории по слабому надзору с открытым исходным кодом под названием Snorkel.

Преобладающий сегодня подход машинного обучения - это обучение с учителем, при котором люди месяцами или годами вручную маркируют миллионы точек данных индивидуально, чтобы компьютеры могли научиться предсказывать события. Например, чтобы обучить модель машинного обучения предсказать, является ли рентгеновский снимок грудной клетки ненормальным, рентгенолог может вручную пометить десятки тысяч рентгенограмм как «нормальные» или «ненормальные».

Цель Snorkel и слабых методов надзора в более широком смысле - позволить экспертам в предметной области (в нашем случае журналистам) обучать модели машинного обучения, используя функции или правила, которые автоматически маркируют данные, вместо утомительного и дорогостоящего процесса маркировки вручную. Что-то вроде: Если вы столкнулись с проблемой x, решите ее таким образом. (Вот техническое описание шноркеля).

«Мы стремимся демократизировать и ускорять машинное обучение», - сказал Ратнер, когда мы впервые встретились прошлой осенью, что сразу заставило меня задуматься о возможных приложениях к журналистским расследованиям. Если Snorkel может помочь врачам быстро извлекать информацию из множества рентгеновских снимков и компьютерных томографов для сортировки пациентов разумным образом, а не томящихся в очереди пациентов, это, вероятно, также может помочь журналистам находить зацепки и расставлять приоритеты в статьях в панамских газетах. ситуации.

Ратнер также сказал мне, что его не интересуют «излишне причудливые» решения. Он стремится найти самый быстрый и простой способ решения каждой проблемы.

В начале января мой отдел новостей, Международный консорциум журналистов-расследователей и лаборатория Re’s Stanford начали сотрудничество, направленное на совершенствование процесса журналистских расследований. Чтобы соблюсти принцип ничего лишнего, мы называем его машинным обучением для расследований.

Для журналистов сотрудничество с учеными имеет двоякую ценность: доступ к инструментам и методам, которые могут помочь в подготовке репортажей, и отсутствие коммерческой цели в университетской среде. Для ученых привлекательными являются проблемы «реального мира» и наборы данных, которые журналисты приносят на обсуждение, а также, возможно, новые технические задачи.

Вот уроки, которые мы извлекли из нашего партнерства:

  • Выберите лабораторию искусственного интеллекта с опытом работы в реальных приложениях. Лаборатория Криса Ре, например, является частью консорциума государственных и частных организаций, которые разработали набор инструментов, призванных осветить темную паутину. Используя машинное обучение, правоохранительные органы могли извлекать и визуализировать информацию, иногда скрытую внутри изображений, которая помогала им преследовать сети торговли людьми, процветающие в Интернете. Поиск в панамских документах ничем не отличается от поиска в глубинах даркнета. Нам есть чему поучиться из предыдущей работы лаборатории.
  • Убедитесь, что у обеих сторон есть стимулы. Есть много гражданских ученых-ИИ, обеспокоенных состоянием демократии, которые хотели бы помочь журналистам делать репортажи, меняющие мир. Но для того, чтобы партнерство продолжалось и было продуктивным, это помогает, если есть техническая проблема, с которой могут справиться ученые, и если данные могут быть воспроизведены и опубликованы в академической среде. На раннем этапе отношений выясните, есть ли согласованность целей и компромиссы. Для нас это означало сосредоточиться в первую очередь на медицинском исследовании с общедоступными данными, потому что оно хорошо согласуется с исследованиями, которые лаборатория Ре уже проводила, чтобы помочь врачам предвидеть, когда медицинское устройство может выйти из строя. Партнерство помогает нам развить работу по машинному обучению, проделанную командой ICIJ в прошлом году для отмеченного наградами расследования файлов имплантатов, которое выявило полное отсутствие регулирования медицинских устройств во всем мире.
  • Выбирайте полезное, а не причудливое. Есть задачи, для решения которых машинное обучение не требуется. Итак, как мы узнаем, что ИИ - правильный выбор? Джон Киф, возглавляющий Quartz AI Studio, говорит, что машинное обучение может помочь журналистам в ситуациях, когда они знают, какую информацию ищут в больших объемах документов, но найти ее будет слишком долго или будет слишком сложно. Возьмем примеры расследования самолетов-шпионов от Buzzfeed News в 2017 году, в котором алгоритм машинного обучения был развернут на основе данных отслеживания полета для идентификации самолетов-разведчиков (здесь компьютер обучался скорости поворота, скорости и шаблонам высоты полета самолетов-шпионов), или расследование о сексуальных домогательствах врачей в Атланте Джорнал Конституции, в котором компьютерный алгоритм помог выявить случаи сексуального насилия в более чем 100 000 дисциплинарных документов. Я также восхищен работой украинского агентства журналистики данных Texty, которое использовало машинное обучение для обнаружения незаконных участков добычи янтаря путем анализа 450 000 спутниковых изображений.
  • Репортер в курсе событий на всем протяжении. Если вы используете машинное обучение в своем расследовании, обязательно заручитесь поддержкой репортеров и редакторов, участвующих в проекте. Вы можете столкнуться с сопротивлением, потому что грамотность в области ИИ в отделах новостей все еще довольно низка. В ICIJ редактор-исследователь Эмилия Диас-Штрук была переводчиком искусственного интеллекта для нашей редакции, помогая журналистам понять, почему и когда мы можем выбрать машинное обучение. Суть в том, что мы используем его для решения журналистских проблем, которые иначе не удалось бы решить, - говорит она. Репортеры играют большую роль в процессе искусственного интеллекта, потому что они являются экспертами в предметной области, у которых компьютер должен учиться - эквивалентно радиологу, который обучает модель распознавать различные уровни злокачественности опухоли. В ходе расследования Implant Files репортеры помогли обучить алгоритм машинного обучения для систематического выявления сообщений о смерти, которые были ошибочно классифицированы как травмы и сбои в работе, и эту тенденцию впервые заметил источник, сообщивший журналистам.
  • Это не волшебство! Компьютер дополняет работу журналиста, а не заменяет его. Команда AJC прочитала все документы, связанные с более чем 6000 случаями сексуального насилия со стороны врачей, которые она обнаружила с помощью машинного обучения. Специалисты ICIJ по проверке фактов вручную проверили каждую из 2100 смертей, обнаруженных алгоритмом. Журналистика не останавливается, она просто получает удовольствие, - говорит Киф. Его команда в Quartz недавно получила грант от Knight Foundation на партнерство с отделами новостей по исследованиям в области машинного обучения.
  • Поделитесь своим опытом, чтобы другие могли узнать об этом. В этой области журналистам есть чему поучиться из академической традиции опираться на знания друг друга и открыто делиться результатами, как хорошими, так и плохими. «Неудача - важный сигнал для исследователей», - говорит Ратнер. «Когда мы работаем над неудачным проектом, каким бы неловким он ни был, это часто является началом многолетних исследовательских проектов. В этом сотрудничестве неудачи - это то, что нужно отслеживать, измерять и сообщать ».

Так что да, в любом случае вы получите известие от нас!

Когда два разных мира объединяются, чтобы решить проблему, может произойти множество неожиданностей. Группа данных ICIJ теперь начала сотрудничать с другой частью лаборатории Ре, которая специализируется на извлечении значений и взаимосвязей из текста, который« застрял в таблицах» и других странных форматов (подумайте о документах SEC или головокружительных диаграммах из Люксембургского офиса ICIJ. Утечки проекта).

Лаборатория также работает над другими, более футуристическими приложениями, такими как получение объяснений на естественном языке от экспертов в предметной области, которые можно использовать для обучения моделей искусственного интеллекта (это уместно называется Babble Labble) или отслеживание глаз радиологов, когда они читают исследование, чтобы проверить, не эти сигналы также могут помочь в обучении алгоритмов.

Возможно, однажды, не так давно, мой коллега по ICIJ Уилл Фитцгиббон ​​воспользуется Babble Labble, чтобы до слуха поговорить с компьютером о своих знаниях об отмывании денег. И мы проследим за глазами моего коллеги Саймона Бауэрса, когда он интерпретирует те невозможные многоступенчатые диаграммы, которые, когда их открывают, раскрывают схемы, которые используют транснациональные компании для уклонения от уплаты налогов.

А пока мы остаемся настоящими. Ничего лишнего.

Вы журналист, у которого есть идея или данные для рассказа, которым может помочь машинное обучение? Вы эксперт по машинному обучению и заинтересованы в сотрудничестве с журналистами? Свяжитесь со мной, и давайте поговорим о способах сотрудничества: [email protected] @MarinaWalkerG

Следующие люди являются участниками партнерства по машинному обучению для расследований между ICIJ и Стэнфордом: Алекс Ратнер, Джейсон Фрайс, Джаред Даннмон, Мэнди Лу, Элисон Каллахан, Эмилия Диас-Штрук, Ригоберто Карвахал, Сен Ву.