Все начинается с качества данных

В этом посте я хочу обсудить вопрос (по крайней мере, для меня) первостепенной важности - качество данных. Новые алгоритмы машинного обучения, их оценка и оптимизация, конечно, полезны и доставляют удовольствие, но если вы примените отличный алгоритм к зашумленным, грязным или поврежденным данным, не ожидайте, что он вернет отличные результаты. В двух эпизодах блестящих передач обсуждается эта проблема, среди прочего, например, осведомленность общественности о машинном обучении, как быть хорошим директором по данным (CDO) и даже как работает градиентный спуск. Одна из серий вышла уже месяц назад, но я ждал достойного собеседника.

Во-первых, Говорящие машины, я цитирую их, поговорите с« Питером Доннелли в его качестве с Рабочей группой по машинному обучению Королевского общества о работе, которую они проделали над общественным мнением об ИИ и машинном обучении . ”

Во-вторых, в более позднем выпуске IBM Big Data & Analytics Hub расскажет о машинном обучении в производственной среде, масштабировании и управлении данными, управлении командами специалистов по обработке данных и, да, о качестве данных и их повреждении (примерно с 20:40) .

Данные о низком качестве бывают разных вкусов, ни один из которых не имеет хорошего вкуса. По сути, вы хотите, чтобы ваш набор данных максимально точно представлял фемоненон, который вы хотите смоделировать. Итак, что может пойти не так? Несколько вещей:

Ваши источники данных не были созданы для того, чтобы фиксировать это явление - например, вы хотите смоделировать погодные условия (очень амбициозный проект!), Но вы используете биржу в качестве основного источника данных. То, что вы не должны этого делать, кажется очевидным, не так ли? Но вы будете удивлены, какие данные иногда попадают в модели, часто из-за честной ошибки или основанных на ошибочных предположениях. Пример из моего собственного опыта: Однажды я анализировал траектории движения левого и правого запястья по данным захвата движения. И первые результаты выглядели… странно. Оказывается, в моем коде я дал неправильный индекс и вместо этого анализировал модели движения левого и правого колена!
Теоретически ваши источники данных могут зафиксировать это явление, но они не размещены в подходящей для этого среде - например, вы хотите использовать записи температуры наружного воздуха для моделирования погоды, но ваш термометр все это время находился в помещении. Теперь, если этот датчик был размещен в плохо изолированном доме (даже не начинайте меня с плохо изолированными домами), ваши входные данные будут в некоторой степени фиксировать погодные условия, но вы должны согласиться, что было бы намного лучше запись с датчика снаружи. Пример из моего собственного опыта: около года назад у меня был доступ к множеству общедоступных изображений Instagram и их тегов. Я создавал модель глубокого обучения, которая будет распознавать категории продуктов питания на изображении, и надеялся, что теги дадут мне удобный ярлык для получения помеченного набора данных. В конце концов, если в теге написано «# пицца», на изображении должна быть пицца, верно? Неправильный. Теги были повсюду, потому что пользователи не используют теги только для описания того, что на изображении.
Ваш датчик смещен. Это непростой вопрос. Предубеждения у людей почти неизбежны, потому что они помогают нам сокращать путь к решениям и экономить время. Они могут быть полезны во многих ситуациях, но во многих других они, несомненно, вредны, особенно когда мы имеем дело с социальными ситуациями и решениями, которые могут повлиять на жизнь людей. Пример из моего собственного опыта: я хотел обнаруживать людей на фотографиях профиля в Твиттере. После запуска нескольких сотен из них с помощью модели, которую я нашел в Интернете, я начал оценивать результаты. Ложных срабатываний было немного - когда на изображении не было человека, модель говорила «нет человека». Зато было тонны негативов на… афроамериканских профилях! То есть на снимке явно был человек, но модель их не обнаруживала! Исследователи, построившие модель, конечно, не были злыми расистами, они просто использовали плохой набор данных для обучения модели, тот, который содержал в основном белые лица. Излишне говорить, что в итоге я не использовал эту модель. Итак, давайте рассмотрим третий случай более подробно.

Допустим, вы хотите помочь своему отделу кадров сэкономить время и строите модель, которая будет оценивать резюме кандидатов и выдавать два предложения - приглашать на собеседование или нет. У вас есть набор данных с резюме предыдущих кандидатов и независимо от того, были ли они приглашены на собеседование. А теперь давайте представим, что у нас есть какой-то удивительный формат резюме, который очень хорошо отражает все навыки и опыт соискателей (что не всегда бывает с резюме), так что первые два сценария здесь неуместны. Но вы не знаете, что успехи предыдущих кандидатов оценивались людьми, и один или несколько из этих людей имели очень сильные предубеждения к тому или иному аспекту или навыку, который на самом деле не отражает пригодность этого кандидата для должности, на которую они претендуют. . Самыми явными кандидатами на такие предубеждения, конечно же, являются пол, раса, возраст (независимо от того, указаны ли они прямо или выражены скрытыми способами, такими как место рождения, первая запись о работе, имя, даже должность), но могут быть и более тонкие ситуации. . Скажем, у человека, оценивающего резюме, очень теплые воспоминания об университете, который он окончил, и когда он видит, что соискатель окончил то же учебное заведение, он сразу думает, что соискатель - прекрасный человек и больше подходит для этой работы, чем другой. соискатель с идентичным послужным списком, но для университета, который они окончили. Прежде всего, пожалуйста, не думайте, что я считаю таких оценщиков злыми или глупыми - никто не свободен от предубеждений, все, что мы можем сделать, - это узнать о них и активно работать над исправлением наших мыслительных процессов.

Я далеко не единственный, кто указывает на важность качества данных и проблему предвзятости в данных. Если вы хотите узнать больше об этом явлении, есть множество голосов, к которым вы можете прислушаться:

Оружие математического разрушения

Серия ProPublica о машинном уклоне

Джон Джаннандреа, руководитель отдела искусственного интеллекта в Google

… И многое другое

Я часто спрашиваю себя: почему модели машинного обучения так легко улавливают человеческие предубеждения, присутствующие в данных, особенно сексизм и расизм? Пока что единственный ответ, который у меня есть, заключается в том, что такие предубеждения являются именно тем, чем они являются - поверхностными, но заметными. Свойства, на которых они основаны, очень легко определить - цвет кожи, черты лица, определяемые полом, возраст, но они не коррелируют со свойствами, которые действительно имеют значение во многих социальных контекстах, в отличие от таких вещей, как устойчивость, честность, надежность. и т. д. Есть много исследований, в которых утверждается, что последняя группа может быть запечатлена с одной фотографии или голоса, но точность довольно низкая, и, опять же, модели основаны на данных, полученных из человеческого восприятия, а человеческое восприятие предвзято. Например, мы склонны думать, что красивые (во многих смыслах социальная конструкция), люди добрые, умные и заслуживающие доверия. Но так ли они? И если да, то почему? (На самом деле, сами научные исследования сообщают, например, о «предполагаемой надежности», а более поздние газеты будут чрезмерно упрощать и искажать такие отчеты, возмутительно утверждая, что привлекательный внешний вид собеседника гарантирует, что вы можете ему доверять.)

Итак, что вы можете сделать, если у вас есть набор данных, и вы хотите проверить его на предмет скрытой предвзятости? Увы, серебряной пули нет, и чем сложнее ваши данные, тем сложнее их проверять. Но вы, безусловно, можете по крайней мере прилично поработать - построить и проанализировать свои данные! Визуализируйте это таким образом, чтобы вы могли увидеть, сильно ли коррелируют определенные функции с вашими классами, а затем спросите себя, должны ли они на самом деле. Если вы выполняете кластеризацию, посмотрите на результирующие элементы, которые попадают в один и тот же кластер, и посмотрите, какие функции кажутся объединяющими их и должны ли они, опять же, действительно быть объединяющими функциями. Если у вас есть функции, которые могут способствовать предвзятости и не должны иметь отношения к результату - удалите их, но помните, что некоторые, казалось бы, невинные функции, такие как почтовый индекс, могут привести к необъективным результатам. (Конечно, иногда даже пол является вполне допустимым признаком, например, если мы имеем дело с диагностикой рака простаты, но это вроде очевидно.)

Даже если кажется, что ваша модель работает очень хорошо, вы обязаны изучить ее и убедиться, что она не усиливает человеческие предубеждения.

Источник изображения

Все начинается с качества данных

Вопросы по теме