Что такое предвзятость данных в искусственном интеллекте и почему нас это должно волновать?

Машинное обучение и искусственный интеллект превратились из модных словечек в практические приложения. Google и Amazon принесли в наши гостиные устройства с искусственным интеллектом, такие как Google Home и Alexa. Поскольку ИИ и машинное обучение все чаще используются повсеместно, вопрос о необъективных данных становится очень важным.

Чтобы понять, как предвзятые данные в машинном обучении могут повлиять на нас, давайте посмотрим на работу системы ИИ.

Сегодня машинное обучение — наиболее распространенный способ создания программы ИИ. Машинное обучение в основном использует концепцию обучения машин тому, как учиться на огромных объемах данных. Это называется «обучающий набор данных». Результат алгоритма машинного обучения зависит от этого обучающего набора данных. В случае, если набор обучающих данных неверен, это также распространится на решение.

Возьмем в качестве примера набор обучающих данных из множества фотографий собак с метками для собак, и машинное обучение пытается идентифицировать различных собак по случайным изображениям. Теперь по ошибке в обучающий набор данных попадает неправильное изображение — изображение волка, помеченного как собака. Всякий раз, когда алгоритм встречает изображение собаки, похожей на волка, он идентифицирует ее как волка, а не как собаку. Старая поговорка «мусор на входе, мусор на выходе» по-прежнему актуальна.

Следовательно, очень важно, чтобы наборы данных были беспристрастными и не подвергались манипулированию, чтобы программа ИИ давала действительно объективные результаты. Это легче сказать, чем сделать, потому что данные могут быть преднамеренно или непреднамеренно искажены. Более того, создателями алгоритма являются люди, и как люди, мы склонны иметь врожденное восприятие и предубеждения.

Но сначала что такое предвзятые данные?

Когнитивные предубеждения — это модели, которые отклоняются от нормального обоснования для вынесения суждений, и они используются нами либо для умственных сокращений, либо для информационной перегрузки, либо даже для социального признания. Эти предубеждения иногда могут приводить к неточным результатам. Известно 188 предубеждений, как показано на диаграмме ниже:

Набор обучающих данных, скорее всего, будет включать эти смещения, поскольку первый шаг создания и маркировки данных выполняется вручную.

Если такой набор данных используется для обучения системы ИИ, результирующие действия или решения будут содержать эти предубеждения и давать результаты, которые могут оказаться бесполезными.

Помимо вышеперечисленного, могут быть и другие типы смещения, такие как смещение выборки. Это смещение происходит, когда обучающие данные не включают фактические условия, в которых будет работать модель. Например, если мы хотим, чтобы автономные транспортные средства работали как днем, так и ночью, простое предоставление данных, полученных в течение дня, было бы бесполезным.

Из приведенных выше примеров совершенно ясно, что искаженные данные повлияют на работу вашей системы искусственного интеллекта. Вот некоторые из этих эффектов в деталях.

1. Отсутствие прозрачности в процессе принятия решений

Системы машинного обучения являются результатом алгоритмов, разработанных для управления системой. Затем эти алгоритмы обучаются вести себя определенным образом для получения желаемых результатов. Это означает, что если бы эти данные были необъективными, конечный пользователь никогда бы об этом не узнал. Если мы возьмем пример ИИ для подбора персонала Amazon, кандидат никогда не узнает, что ИИ предвзято относился к соискателям-мужчинам. Возможно, даже менеджеры по персоналу не знают об этой проблеме, пока не будет распознана закономерность.

2. Предвзятые результаты

Системы искусственного интеллекта обычно используются для автоматизации ручных задач. Предполагается, что применение ИИ эффективно и объективно и дает желаемые результаты. Объективности системы может помешать предвзятый набор данных, что приводит к ошибочным, менее желаемым результатам и предвзятым результатам. Есть много примеров проявления этой проблемы — программы распознавания лиц хуже работают с небелыми людьми, или программы распознавания речи не распознают женские голоса так же хорошо, как мужские, или даже более тревожные заявления о дискриминации в ИИ используют кредитные агентства и советы по условно-досрочному освобождению.

3. Нечувствительный контент

Искусственный интеллект широко используется в чат-ботах в коммерческих целях. Эти чат-боты разработаны для взаимодействия с клиентами или общественностью в целом. Они разработаны таким образом, что учатся и адаптируются, как только вы начинаете с ними взаимодействовать. Ваши ответы используются ими в качестве набора данных для обучения.

Самый известный пример того, как чат-бот пошел не так, как надо, — это Microsoft’s, Tay. Этот интерактивный чат-бот в Твиттере использовался в качестве эксперимента по разговорному пониманию. Когда люди начали писать в Твиттере женоненавистнические замечания, он повторял такие же замечания в ответ. Он превратился из дружелюбного бота в сообщения ненависти в течение 24 часов после запуска, доказывая, что если мы не будьте осторожны при разработке этих ботов, мы можем создать мошеннических ботов.

4. Угроза бизнесу

ИИ — это все о данных, и многие из этих данных являются личными. Если ИИ дает сбой или начинает принимать решения, которые не являются здоровыми или хорошими, все стороны, связанные с ИИ или бизнесом, для которого используется эта конкретная система ИИ, окажутся в опасности. Коммерческие организации могут негативно повлиять на свою клиентскую базу, если они не будут создавать инклюзивные продукты. Возьмем случай проверки кредитоспособности, если финансовое учреждение, проверяющее кредитоспособность, не предоставляет прозрачных результатов или обратной связи, клиент, как правило, обращается к вашему конкуренту. Если приложение ИИ дискриминирует женщин, вы упустите всю демографию, используя ваш продукт. Следовательно, этический дизайн приложений ИИ может повлиять на верхние и нижние границы организаций.

5. Влияние на общество

На примере фиаско Cambridge Analytica и Facebook мы увидели, что данные машинного обучения могут иметь огромное влияние на общество. Было показано, что использование гипертаргетированной рекламы с использованием ложных заявлений повлияло на результаты выборов 2016 года в США. Боты, замаскированные под учетные записи людей, используются для распространения дезинформации или создания иллюзии общественной поддержки. Эта проблема затрагивает общество в целом и даже может стать угрозой демократии.

Вывод:

В заключение, к вопросу этики в применении искусственного интеллекта нельзя относиться легкомысленно, если мы хотим создавать системы искусственного интеллекта, которые нам выгодны. Хотя ИИ обладает огромным потенциалом для построения лучшего будущего, мы знаем, что предубеждения могут возникать неосознанно. Чтобы избежать этой проблемы, необходимо сосредоточиться на этичном дизайне, обеспечении прозрачности и анализе наших мотивов при создании этих систем.

Первоначально опубликовано на https://www.technotchsolutions.com 24 января 2019 г.

Что такое предвзятость данных в искусственном интеллекте и почему нас это должно волновать?

Вопросы по теме