что журналистам нужно знать об искусственном интеллекте

гид для профессионалов

почему эта статья?

Журналист недавно попросил меня прокомментировать возможность теории заговора с использованием одного из алгоритмов искусственного интеллекта Facebook. Он хотел знать, было ли вероятно или даже возможно, что Facebook использовал свой существующий алгоритм для обнаружения видео о самоубийствах для проверки и цензуры консервативных источников СМИ. Чтобы дать осмысленный ответ на вопрос, я обнаружил, что мне нужно потратить час на то, чтобы рассказать этому журналисту об ИИ в целом, просто чтобы дать ему достаточно справочной информации, чтобы понять мою оценку теории заговора. Поступая таким образом, я подготовил его к будущим расследованиям, связанным с ИИ, с которыми он и его коллеги наверняка будут сталкиваться в будущем все чаще, по мере того, как ИИ расширяет свое взаимодействие с нашей повседневной жизнью.

Из встречи, описанной выше, я понял, что вскоре журналисты столкнутся с растущей потребностью объяснять и редактировать социальные проблемы, связанные с ИИ, всех типов. Я пришел к выводу, что большинство журналистов в настоящее время плохо подготовлены к этой задаче. Чтобы исправить ситуацию, я составил этот букварь, чтобы помочь журналистам приобрести достаточные знания о предмете, чтобы помочь им в том, что у них получается лучше всего: руководить общественным дискурсом по актуальным вопросам дня.

И я не единственный, кто говорит, что журналистам нужна информация о состоянии технологий искусственного интеллекта и о том, как они взаимодействуют с повседневной жизнью; знаменитый пионер ИИ Фэй-Фэй Ли недавно предложил WIRED следующую цитату:

«Я также очень надеюсь на то, что грамотность в области ИИ станет более распространенной - начиная с журналистов , но также и среди политиков, учителей и гражданского общества. Это не профессор, желающий, чтобы все знали, как программировать; речь идет о большем количестве людей, участвующих в руководстве ИИ »[1] (выделено мной).

Дело в том, что как граждане и как экономические субъекты на Глобальном Севере мы теперь ежедневно потребляем продукцию алгоритмов ИИ. Хотя алгоритмы (не связанные с искусственным интеллектом) и компьютерная модерация используются уже довольно давно, практическое коммерческое использование искусственного интеллекта в сегодняшних масштабах является чрезвычайно новым - появилось только в последние семь или восемь лет. Чтобы справиться с вытекающими из этого социальными последствиями, нам нужны непрофессионалы, которые понимают ИИ достаточно, чтобы принимать обоснованные решения по этому поводу. Журналисты могут обращаться к обычным людям в массовом порядке по этим вопросам, и я надеюсь, что эта статья поможет им в решении этой задачи.

ключевые выводы

Вот ключевые моменты, которые следует запомнить из этой статьи, каждый из которых более подробно описан в нижеследующем тексте:

Нам осталось всего около десяти лет до полномасштабной революции ИИ, широкого использования ИИ для принятия коммерческих и государственных решений, влияющих на большое количество людей. Поэтому нам нужны отличные журналисты, которые проведут нас через этот переходный период!
Использование ИИ привело к тяжелым социальным последствиям, включая смерть и неоправданно длительные сроки тюремного заключения.
Технологии искусственного интеллекта и машинного обучения стремятся имитировать интеллект, будь то интеллект человека или вид интеллекта, который очень отличается от человеческого.
Процесс искусственного интеллекта создает только приблизительную модель реальной проблемной области, по которой он пытается принимать решения. Таким образом, пределы приближения снижают его точность.
Решение AI может хорошо работать для очень конкретной проблемы - той, которую его научили решать. Однако он не будет эффективно распространяться на другие задачи.
Смещение в наборах данных, используемых для обучения алгоритмов ИИ, приводит к смещению их результатов.
Алгоритмы искусственного интеллекта трудно поддаются аудиту.
Мы не знаем, какие последствия может иметь использование ИИ для общества, например, возможная технологическая безработица.

Ошибок ИИ предостаточно

Непосредственная проблема для журналистов заключается в том, что использование ИИ временами создает серьезные проблемы, и журналисты будут сообщать публике и редактировать статьи. Несколько примеров:

Когда технология распознавания лиц на основе ИИ используется для борьбы с преступностью, ошибочная идентификация вызывает аресты и / или публичное осуждение невиновных [18, 19].
Беспилотный автомобиль Uber недавно убил пешехода [18, 20].
Недавний алгоритм найма сотрудников Amazon, основанный на искусственном интеллекте, привел к поддающейся оценке гендерной предвзятости [18, 21].

Конечно, человек тоже может совершать такие ошибки, но большинство обществ установили протоколы для работы с человеческими ошибками. У нас нет таких протоколов для ошибок, связанных с ИИ - по этому поводу требуется всемирный разговор. Журналисты окажутся критически важными для этого разговора.

что такое искусственный интеллект и машинное обучение?

Искусственный интеллект (ИИ) в широком смысле относится к исследованиям и инженерной практике создания компьютеров, имитирующих интеллект. Здесь я оставляю понятие «интеллект» неопределенным; это может означать имитацию человеческой информации и способности принимать решения [2], или это может относиться к развитию интеллекта, сильно отличающегося от человеческого мышления [3]. Но эти определения начинаются с предположения, что компьютеры сами по себе не интеллектуальны. Под этим я подразумеваю, что для того, чтобы быть полезными, они должны быть «запрограммированы», то есть каким-то образом проинструктированы человеком.

Углубляемся в этот вопрос обучения: на протяжении большей части истории вычислительной техники люди писали «программы», которые управляли обработкой данных и принятием решений компьютерами. Инженеры-программисты применяли языки программирования, такие как C ++ или Python, для детализации каждого действия, которое компьютер, выполняющий данную программу, может совершить. Эти подробные инструкции оказались очень ясными (например, ЕСЛИ пользователь набирает «Hello», а затем нажимает клавишу ввода, ЗАТЕМ НАПИШИТЕ «Hello back to you!» На экране).

Однако эта деятельность плохо масштабируется. Написание подробных инструкций для учета каждого возможного ввода и каждого возможного решения непосильно даже для лучших команд разработчиков программного обеспечения. Итак, исследователи ИИ разработали в ответ две основные структуры: «Экспертные системы» и «машинное обучение» (ML). Оба появились примерно в одно и то же время в академических кругах, но последние стали коммерчески практичными только в последние годы. В этой статье основное внимание будет уделено машинному обучению, но здесь я кратко объясню экспертные системы в качестве отправной точки:

Экспертные системы пытаются решить проблему явного написания сценариев для каждого решения, принимаемого в программе на основе заданных входных данных. Они распространились в 1980-х [5], но теперь в значительной степени отошли на второй план. «Инженер по знаниям» вводит данные в экспертную систему после собеседования с экспертом, скажем, высокоспециализированным врачом. Большой объем фактов будет собираться вручную - таким образом, проблема учета всех возможных входных данных остается - и затем «механизм рассуждений» (сам алгоритм) будет обрабатывать факты, чтобы сделать выводы без необходимости кодирования конкретных шагов рассуждения, на которые повлияло по каждой системе координат. Таким образом, они, как говорили, имитировали интеллект эксперта. Экспертные системы все еще используются - я создал две из них только за последний год, одну для медицинских обоснований и одну для рекомендаций по моде, - но исследования и практика ИИ в значительной степени перешли на вторую структуру: машинное обучение.

Машинное обучение пытается решить проблему учета каждого возможного ввода или комбинации вводимых данных, чтобы программистам больше не приходилось это делать. По сути, инженеры «тренируют» алгоритм для получения желаемых выходных данных из большого набора известных входных данных, где известный результат обычно сопровождает каждый предоставленный известный входной сигнал для помощи в обучении. Например, алгоритм машинного обучения, предназначенный для обнаружения скейтборда в видео, будет показывать от десятков до сотен тысяч видеороликов, некоторые со скейтбордами, а некоторые без них. В наиболее частом случае каждое из этих видео будет помечено как имеющее скейтборд или его отсутствие. Процедура обучения ML обработает эти входные данные и «научится» обнаруживать скейтборды в будущих невидимых видео. В этом сценарии инженеры становятся больше похожими на «учителей», чем на разработчиков явных правил (подробнее об этом позже).

Мягко говоря, машинное обучение быстро покорило мир. Алгоритмы машинного обучения определяют результаты поиска Google [10], рекомендации фильмов Netflix [9] и фильтры Facebook [8]. Крупные корпорации используют машинное обучение для фильтрации резюме и мониторинга сотрудников [11]. В некоторых юрисдикциях ОД используется в процедурах вынесения приговоров по уголовным делам [7]. Китай применяет распознавание лиц на основе машинного обучения для подавления уйгурского меньшинства [6]. Со своей стороны, я использовал ML для дизайна молекул [12], торговли валютой [13], выявления политических предубеждений [14] и для предоставления музыкантам обратной связи в реальном времени относительно энтузиазма аудитории [15].

Остальная часть этой статьи будет специально посвящена машинному обучению и использовать этот термин как синоним искусственного интеллекта, как это принято сегодня.

что такое «модель»?

Практики искусственного интеллекта часто называют алгоритмы, которые они создают, «моделями». Вот почему:

Модель - это приближение реального объекта, созданное для помощи в изучении этого объекта или принятии решения по нему. Смоделированный объект может быть физическим, например, модель самолета, испытываемого в аэродинамической трубе, процесс, например, карта динамики цепочки поставок, или даже идея, например рисунок «обратной стороны оболочки» бизнес-модель на салфетке во время бизнес-ланча. Модели также могут быть математическими, например, в виде набора из одного или нескольких уравнений. Например, «E = mc²» - математическая модель, описывающая физическую связь между энергией и массой.

Более того, алгоритмы машинного обучения - это математические модели - уравнение (или набор уравнений), аппроксимирующее реальные отношения между входными и выходными данными, на которых был обучен алгоритм. Процесс обучения «обнаруживает» эти взаимосвязи и кодирует их в параметрах уравнений. Запуск обученной модели машинного обучения на новых входных данных затем помогает людям принимать решения в реальном мире или даже заменяет их.

и вот мы подошли к первой проблеме ...

Я намеренно использовал термин «аппроксимация» в последнем абзаце. Модели - это всего лишь приближения к отражаемым объектам, а не реальная вещь. Поэтому некоторые детали теряются, а выводы, сделанные на основе модели, могут неадекватно отражать реальность. Например, на модели самолета в аэродинамической трубе могут быть вырезаны не все заклепки и швы настоящего самолета, которые она отражает. Таким образом, микрожидкостные эффекты этих немоделированных заклепок и швов (которые в реальной жизни могут привести к значительному сопротивлению) остаются нераскрытыми.

Точно так же мои модели ML для валютного рынка не учитывают все возможные факторы, влияющие на колебания цен. Чтобы проиллюстрировать, я (пока) не включаю влияние отчетов центрального банка. Я также не могу включать политические события; мои модели потеряли деньги в результате недавней торговой войны между США и Китаем. Прогнозирующее последствие состоит в том, что алгоритм иногда прогнозирует одно направление цены, когда реальность поворачивается в другую сторону.

Так хорошо, я потерял немного денег. Не так уж и важно. Но учтите, что аналогичные модели решают социально важные вопросы, например, как долго длится тюремный срок того или иного преступника. Или получите ли вы (и целая группа людей - в чем-то похожих на вас, о которых вы можете знать или не знать) работу, на которую имеете право. Или оцените состояние рака вашей матери. По этим «приблизительным» моделям принимаются серьезные решения.

Отсюда следует, что насущный вопрос, с которым сталкиваются журналисты, политики и философы в отношении использования ИИ, - «Как часто ошибаться можно?». Конечно, это зависит от приложения: если мои прогнозы валют верны только в 60% случаев, я все равно зарабатываю деньги на большом количестве сделок. Но насколько точна социальная приемлемость алгоритма обнаружения пешеходов в беспилотном автомобиле? 99,9%? 99,99999%? В случае диагностики рака на основе искусственного интеллекта вы можете получить второе мнение. Но беспилотный автомобиль может кого-то убить!

И даже если беспилотные автомобили действительно иногда наезжают на пешеходов, необходимо оценить, насколько их эффективность в предотвращении пешеходов сравнивается с водителями-людьми, с прицелом на то, чтобы решить, лучше ли в целом водители - люди или искусственные. Подобные вопросы и их политические последствия требуют общественного обсуждения. Журналисты играют решающую роль в этих дискуссиях.

ложные срабатывания и ложные отрицания

Более формально, процедура любого вида (будь то судебное дело, медицинский тест или алгоритм машинного обучения), которая выбирает между двумя вариантами (например, виновен или не виновен, инфицирован или не заражен, скейтборд, присутствующий на видео, или скейтборд, отсутствующий на видео) называется «классификатором». Технически классификаторы могут включать более двух результатов, но для определения следующих ключевых терминов мы ограничим обсуждение двусторонними классификаторами:

Когда классификатор говорит, что ситуация верна (виновен, инфицирован, присутствует скейтборд), и эта ситуация на самом деле ложна, мы называем вывод «ложноположительным». Точно так же истинная ситуация, объявленная как ложная, обозначается как «ложноотрицательный». Разработчики алгоритмов классификации на основе искусственного интеллекта стремятся уменьшить количество этих ложных срабатываний и ложных отрицаний, точно так же, как система уголовного правосудия стремится уменьшить количество неточных вердиктов. Но, как обсуждалось выше, остаются неточные выводы, и мы, как общество, должны решить, какие уровни ложных выводов мы будем принимать для данных приложений.

Чтобы проиллюстрировать социальные последствия в реальной ситуации, классификатор изображений Google 2015 года, разработанный для распознавания горилл на фотографиях, выдал ложные срабатывания, в которых утверждалось, что чернокожие люди на изображениях были гориллами [4]. В другой хорошо известной ситуации [5] ИИ используется в некоторых юрисдикциях, чтобы предсказать, будет ли осужденный преступник совершать повторное преступление. Ложные срабатывания такого алгоритма могут привести к более длительному тюремному заключению, чем необходимо. В случае, когда я представил эту статью, в ответ на теорию заговора о том, что Facebook использовал свой алгоритм обнаружения видео самоубийц для цензуры правых видео, я пришел к выводу, что наиболее вероятный сценарий состоит в том, что алгоритм обнаружения видео самоубийц генерирует ложное срабатывание для конкретного цензурированное правое видео, породившее заговор.

ИИ «хрупкий»

Продолжая обсуждение алгоритма видеообнаружения самоубийств в Facebook:

ИИ гораздо менее способен, чем думает публика. Наибольшая путаница касается предполагаемой обобщаемости ИИ. Другими словами, люди склонны думать, что алгоритм ИИ, обученный выполнению задачи, может легко адаптироваться к выполнению связанной задачи. Это просто не так, и поэтому мы называем алгоритмы ИИ «хрупкими», то есть они не могут адаптироваться к меняющимся условиям. (Повышение универсальности ИИ - область активных исследований).

Что касается алгоритма обнаружения видео с самоубийствами в Facebook, из-за отсутствия универсальности технологии нельзя ожидать, что он точно определит, показывают ли видео материалы крайне правого экстремизма. Если Facebook хотел такой алгоритм, а он, вероятно, у них есть, им пришлось бы обучать его с нуля, используя совершенно другой набор обучающих видео. И затем этот алгоритм, однажды обученный, не может быть использован для обнаружения пропаганды ИГИЛ - им придется снова начинать с нуля.

вы можете предсказывать только на основе того, что вы видели раньше

Когда я впервые подал заявку на кредит, задолго до того, как на сцене появился современный ИИ, мне отказали просто из-за того, что заранее не было кредита. Алгоритм эмитента карты - вероятно, основанный на традиционных статистических методах - знал только, как обрабатывать кандидатов с предыдущими кредитными историями, потому что это, скорее всего, то, что программисты учитывали при его создании.

Та же проблема остается и в сегодняшних гораздо более эффективных методах машинного обучения: они могут только приблизительно определить взаимосвязь между данными и результатами на основе входных данных, которые они увидели в процессе обучения. Когда заданный сценарий входных данных находится достаточно далеко за пределами области обучения, алгоритм оказывается беспомощным. Хрупкий.

и здесь мы подходим ко второй серьезной проблеме: предубеждениям при обучении

Обсуждая тот факт, что модели машинного обучения хороши только в пределах данных, на которых они были обучены (например, кредитная модель, которую я описал выше, не зная, что делать с кандидатами с нулевой кредитной историей), мы понимаем, что могут быть предубеждения. при выборе используемых данных. Например, для алгоритма Google, который ошибочно классифицировал чернокожих людей как горилл, вполне вероятно, что в качестве входных данных во время процедуры обучения использовалось несколько изображений черных людей - по сравнению с белыми людьми. Результирующий эффект напоминает мне отношение «все черные люди выглядят одинаково», которое до сих пор отправляет многих невиновных в тюрьму в Соединенных Штатах, только более «точным» в своей потенциальной неточности.

Выше я назвал инструкторов алгоритмов машинного обучения «учителями». Все учителя передают свои предубеждения своим ученикам, нравится им это или нет. Было даже доказано, что инженеры-программисты распространяют свои социальные предубеждения в своем якобы нейтральном коде [17].

непрозрачные коробки

Математика, используемая в большинстве методов машинного обучения, обычно многомерна, что означает, что с обученной моделью могут быть связаны тысячи или десятки тысяч чисел. Таким образом, человек не может проверить модель; чтобы точно определить, какие отношения внутри него определяют какое поведение. Это проблема в ситуациях, связанных с беспилотными автомобилями, где, предположив, что такая машина сбила пешехода, мы ожидаем, что власти расследуют причину столкновения так же, как они расследуют авиакатастрофы. Однако механические взаимосвязи в самолете, хотя и сложные, в большинстве ситуаций можно четко проследить до цепочки причин и следствий. Однако из-за непрозрачности большинства моделей машинного обучения такая оценка окажется недоступной в случае алгоритма обнаружения пешеходов в беспилотном автомобиле.

Повышение подотчетности и контролируемости методов машинного обучения остается областью активных академических исследований.

неизвестно, что общество должно скоро справиться с

На горизонте маячат две большие неизвестные, связанные с ИИ: технологическая безработица и влияние алгоритма машинного обучения «перекрестный разговор». По мере того, как эти ситуации становятся предметом внимания, журналисты обнаруживают, что описывают ситуацию.

Призрак технологической безработицы, массовые и быстрые увольнения людей из-за автоматизации (и социальные последствия этого) преследовали Запад со времен промышленной революции. Однако каждый переломный момент в развитии современного индустриального общества создавал достаточно новых рабочих мест, чтобы заменить утраченные. Еще неизвестно, сохранится ли эта тенденция с автоматизацией, управляемой ИИ. В прошлом автоматизация заменяла простые задачи, требующие небольшого количества человеческих ресурсов для выполнения, оставляя людей выполнять более сложные рассуждения и творческую деятельность. Теперь карьера, требующая большей подготовки и интеллекта, находится под угрозой; предположим, что высокообразованный средний класс, а не только пролетариат, окажется в большом количестве безработным? Что в таком случае происходит с нашей политической, экономической и социальной стабильностью?

Второе неизвестное можно рассматривать с точки зрения «экологии искусственного интеллекта» [16]. С тысячами алгоритмов машинного обучения, модулирующих наш повседневный опыт, перекрестная связь между алгоритмами неизбежна, и ее невозможно предсказать. В качестве простого примера, когда я обучаю свои алгоритмы валютной торговли на основе исторических данных о ценах, я косвенно включаю чистые эффекты всех других алгоритмов машинного обучения, которые способствовали этим историческим ценовым данным (алгоритмы, принадлежащие другим трейдерам). И когда мой алгоритм выполняет сделку, их алгоритмы реагируют на мой сигнал. Эффект мог быть умеренным или мог превратиться в катастрофический снежный ком. Мы просто не знаем.

Поэтому я думаю обо всем рабочем пространстве ИИ в производстве как об экологии: алгоритмы взаимодействуют друг с другом напрямую и через нас аналогично экологическим концепциям. Реальная сила заключается не в том, кто может создать «лучший» или «правильный» алгоритм (хотя это помогает), а в том, кто может лучше «склонить» эту сложную интерактивную экологию к своим целям.

всего десять лет в этой революции

Мы (общество) переживаем эту революцию всего через десять лет; до этого времени вычислительные требования, необходимые для ИИ, превышали возможности готового кремния, и поэтому ИИ оставался в лаборатории. Теперь мы живем в мире, где ИИ могут быть экономически выгодно развернуты начинающими инженерами в производственной среде для получения значительной коммерческой выгоды. Результат может оказаться столь же радикальным социальным изменением, как появление Интернета.

Чтобы провести всех нас через это потрясение, потребуются великие журналисты.

использованная литература

Https://www.wired.com/story/fei-fei-li-ai-care-more-about-humans/
Https://www.forbes.com/sites/bernardmarr/2018/02/14/the-key-definitions-of-artificial-intelligence-ai-that-explain-its-importance/#4e1a52774f5d
Https://www.fastcompany.com/40459339/google-perspective-fighting-hate-and-trolls-with-a-mindless-ai
Https://www.usatoday.com/story/tech/2015/07/01/google-apologizes-after-photos-identify-black-people-as-gorillas/29567465/
Https://en.wikipedia.org/wiki/Expert_system
Https://www.theguardian.com/news/2019/apr/11/china-hi-tech-war-on-muslim-minority-xinjiang-uighurs-surveillance-face-recognition
Https://www.technologyreview.com/s/612775/algorithms-criminal-justice-ai/
Https://edition.cnn.com/2019/05/01/tech/facebook-ai-f8/index.html
Https://becominghuman.ai/how-netflix-uses-ai-and-machine-learning-a087614630fe
Https://www.wired.com/2016/02/ai-is-changing-the-technology-behind-google-searches/
Https://www.hrtechnologist.com/articles/digital-transformation/the-beginners-guide-to-ai-in-hr/
Https://badassdatascience.com/2018/01/07/rapidly-identifying-potential-crisprcas9-off-target-sites-part-one/
Https://badassdatascience.com/2017/08/16/pseudo-harmonic-forex-prediction-with-machine-learning-part-one/
Роберт Эпштейн и Эмили Уильямс. 2019. Свидетельства систематической политической предвзятости в результатах онлайн-поиска за 10 дней до промежуточных выборов в США в 2018 г. 99-й ежегодный съезд Западной психологической ассоциации, Пасадена, Калифорния, 26 апреля 2019 г.
Https://badassdatascience.com/2018/05/12/using-ai-to-measure-fan-enthusiasm-at-music-festivals-and-discotheques/
Https://badassdatascience.com/2012/03/10/ai_and_algorithm-ecologies/
Https://blogs.scientificamerican.com/roots-of-unity/even-kids-can-understand-that-algorithms-can-be-biased/
Https://medium.com/syncedreview/2018-in-review-10-ai-failures-c18faadf5983
Https://www.telegraph.co.uk/technology/2018/11/25/chinese-businesswoman-accused-jaywalking-ai-camera-spots-face/
Https://www.nytimes.com/2018/03/19/technology/uber-driverless-fatality.html
Https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G