Если данные говорят вам прыгнуть со скалы, вы бы сделали это?

Дети во всем мире умоляют своих родителей позволить им делать то, что делают «все» их друзья. Конечно, первый родительский вопрос: «Все ли ваши друзья делают это?» В конце концов мы признаем, что это неправда. Следующую нашу просьбу встречает вопрос: «Если бы все твои друзья прыгнули со скалы, ты бы спрыгнул?» Я считаю, что это универсально; мои родители дали мне японский эквивалент, когда я рос.

В детстве у нас никогда не было хороших рациональных аргументов в пользу того, почему мы должны делать то, что нужно. Я полагаю, в детстве мы могли бы попытаться доказать то же самое нашим родителям «потому что я так сказал», но теперь мы знаем лучше. В конце концов мы выросли, или, по крайней мере, некоторые из них выросли (сомнительно, чтобы я когда-либо рос).

«Так говорят данные»

Это эквивалент данных «потому что я так сказал», но данные не имеют родительской власти над кем-либо. К сожалению, все мы слышали что-то подобное от аналитиков данных.

Не то чтобы у меня были проблемы с тем, что «говорят» данные (что бы это ни значило). Моя проблема в том, что этот аргумент — отговорка. Как профессионал в области аналитики, я не согласен с непониманием того, что делает мое творение или как оно работает. Действительно ли оправдан аргумент «я просто применил технику, и вот что получилось»? Разве аналитику не любопытно узнать, как работает его/ее собственный продукт?

Мой опыт говорит, что это одно из двух. Один из них заключается в поверхностном изучении механики без понимания основных основ. Другой — применять механику, не затрачивая усилий на то, чтобы подумать об этом. По сути, они переводятся как «я не знаю, что делаю» и «мне все равно, что я знаю».

Что на самом деле делает ваша аналитика?

«Объяснимость» аналитики привлекла внимание в последнее время. Отчасти это мотивировано требованием прозрачности со стороны различных регулирующих органов в отношении таких вещей, как «объяснимый ИИ». Мы также хотим убедиться, что алгоритм работает так, как ожидается даже для такой простой вещи, как идентификация изображений.

Как проблема, идентификация изображений является простой. Например, это либо волк, либо нет. По иронии судьбы, простые проблемы обычно требуют технически сложных решений, поэтому обычно используются не очень прозрачные методы, такие как глубокое обучение. (Сложные проблемы, такие как человеческое поведение, часто лучше решаются технически более простыми решениями, но это тема для другого обсуждения.)

Модели машинного обучения улавливают определенные признаки, которые идентифицируют изображение как изображение волка. Они могут уловить нечто, выходящее за рамки явных человеческих когнитивных способностей. Они также могут делать то, что они делают, способами, которые явно неверны для обычных людей. Есть часто упоминаемый пример, в котором модель машинного обучения пытается классифицировать, содержит ли изображение хаски или волка. Он классифицировал изображение как изображение волка, если на заднем плане был снег; он собирал снег, а не идентифицировал собаку как волка.

Тем не менее, то, что люди подразумевают под «объяснимым ИИ», часто фокусируется на интерпретации уже созданного алгоритма. Есть еще одна часть, к которой редко обращаются: объяснение подхода, мыслительного процесса и обоснования, использованного для получения алгоритмов. Простая интерпретация разработанной аналитики постфактум и реактивна по замыслу; он не адекватен сам по себе. Но это также означает, что аналитик действительно должен быть вдумчивым по мере развития аналитики.

«Некоторые аналитики невозможно объяснить»

У меня есть фундаментальная проблема с этим направлением мысли. Вы не можете объяснить, что вы сделали? Если да, то как вы утверждаете, что знаете, что делаете, и почему кто-то должен доверять вашему продукту?

Что еще более важно, откуда вы знаете, что ваш продукт не причиняет вреда, будь то прямой или косвенный? Тот факт, что вред является непреднамеренным или что аналитик не знает о последствиях, в действительности мало что значит. Этическим долгом аналитика является оправдание того, что было сделано для создания аналитики и понимания ее последствий. Единственный случай, когда это может быть необязательным, — это если аналитика выполняется исключительно как интеллектуальное упражнение, не влияющее ни на кого другого.

Вокруг идеи технической сложности есть некоторая мистика. Термин «черный ящик» даже был чем-то вроде почетного знака в некоторых кругах. Но гордиться своей неспособностью что-то объяснить — странный прием. «Черный ящик» должен быть «скрытыми техническими подробностями», а не «необъяснимым». Это должно относиться к отсутствию раскрытия информации, а не к самому знанию.

Все компетентные специалисты-практики в области аналитики должны быть в состоянии объяснить разумной аудитории, что они построили, как они это построили, почему они построили именно так, как они сделали, и почему это имеет смысл. Иначе мы не знаем, что имеем. Мы не можем заявлять, что являемся ответственными практиками в области аналитики, выпуская то, что мы создали, не зная, что мы создали. Отказ от ответственности может обеспечить юридическую защиту, но не освобождает нас от этических обязательств.

Данные: не то, что они сказали, а то, что они услышали

Это не означает, что каждый пользователь аналитики должен знать ее технические детали. Но концептуальное, высокоуровневое, структурное объяснение того, что он делает, должно быть понятно достаточно образованному человеку. Наша работа как ответственных распорядителей заключается в том, чтобы наши продукты понимались с точки зрения человека.

Это попадает в тему обмена сообщениями о технологиях. И это относится к одной из актуальных тем: ChatGPT. Кто-то, на кого ChatGPT оказал бы глубокое влияние, прокомментировал в социальных сетях: «Неизвестно, как он учится, известно только, что он учится».

Мой аргумент здесь не о развитии самой технологии. Скорее, я очень верю в обмен сообщениями, и, по моему мнению, существует проблема обмена сообщениями в масштабах всей отрасли. Скептицизм и недоверие к данным уже существуют. Восприятие некоторых сегментов общественности о ChatGPT усугубляет ситуацию.

Чтобы было ясно, правильный обмен сообщениями отличается от вращения, сокрытия или иного сокрытия информации в манипулятивных целях. Скорее, это делает информацию более понятной для конкретной аудитории.

На самом деле, мы часто путаем проблему обмена сообщениями с проблемой прозрачности. Последнее предполагает обеспечение доступности информации. Но единственное, что в конечном счете имеет значение при передаче информации, — это то, как ее воспринимает получатель. Этот разрыв исторически сохранялся, но мы не думали и не заботились о том, чтобы действовать по-другому. А неудачные попытки в конечном итоге приводят к типам «это то, о чем говорят данные» и «это нельзя объяснить». Это лениво.

Это может быть совсем не то, что мы сказали. Возможно, это даже не то, что «сказали» данные. Но пользователи и другие заинтересованные стороны часто слышат «прыгнуть с обрыва, потому что так говорят данные». Не могли бы вы?

Митико И. Уолкотт — DDIChat
США Я консультант по вопросам управления и бывший руководитель с более чем 20-летним опытом работы с данными и…app.ddichat. ком

Подпишитесь на DDIntel Здесь.

Посетите наш сайт здесь: https://www.datadriveninvestor.com

Присоединяйтесь к нашей сети здесь: https://datadriveninvestor.com/collaborate

Если данные говорят вам прыгнуть со скалы, вы бы сделали это?

«Так говорят данные»

Что на самом деле делает ваша аналитика?

«Некоторые аналитики невозможно объяснить»

Данные: не то, что они сказали, а то, что они услышали

Вопросы по теме