Чтобы создавать ответственные системы искусственного интеллекта, нам нужно подумать о некоторых проблемах, которые могут возникнуть в процессе разработки. Потенциально серьезная проблема может возникнуть из-за данных, собранных для обучения модели.

Данные могут нести большие риски для лиц, которые предоставляют свои личные данные. Вот почему появляются новые законы и правила, касающиеся сбора и использования данных. Например, в 2018 году в Европейском союзе был принят Общий регламент по защите данных (GDPR) — законодательный акт, призванный защитить конфиденциальность отдельных лиц и предписывающий организациям способы обработки персональных данных. Прогнозируется, что большинство стран в конечном итоге либо примут GDPR, либо примут аналогичное законодательство в ближайшем будущем. Существует примерно три ключевых элемента защиты данных: идентифицируемость, минимизация данных и уведомление и согласие.

Идентифицируемость относится к требованию к сборщикам данных максимально сократить и защитить идентифицируемые компоненты данных. Это делается с помощью различных методов деидентификации, таких как анонимизация данных или псевдонимизация, которые создают псевдоним, чтобы скрыть личность субъекта, с сохранением ключа, чтобы отменить это, если это необходимо. Чтобы защитить данные, необходимо помнить о трех вещах: а) Шифрование данных, при котором информация шифруется таким образом, что доступ к ней возможен только при наличии разрешения. b) Безопасные серверы и c) Место хранения. Например, хранение в облаке дает много преимуществ, но в какой стране и по каким законам работает облако?

Также важно различать разные классы данных, потому что от этого зависит, насколько нам нужно быть осторожными. С неличными данными, такими как агрегированная статистика, вы можете их использовать, и нет никаких правил. Но с личными данными, которые могут включать чье-то имя, местоположение, IP-адрес и т. д., нам нужно быть более осторожными. А с конфиденциальными данными, такими как генетические, биометрические данные и данные о состоянии здоровья, вам необходимо проявлять крайнюю осторожность.

Минимизация – это еще одна функция защиты данных, которая направлена ​​на то, чтобы ограничить сбор данных и продолжительность их хранения только теми данными, которые необходимы для достижения определенной цели. Раньше считалось, что компании хотели бы хранить данные неограниченное время. Но поскольку приток данных резко увеличился и стоимость хранения стала проблемой, минимизация данных стала более важной как с практической точки зрения, так и с точки зрения законов и правил. Вопросы, которые следует задать:

  • Как долго мне понадобятся данные для достижения цели?
  • Есть ли ненужные данные, которые можно удалить?
  • Как часто я буду просматривать и удалять то, что не нужно?

С минимизацией данных связано право на забвение. В GDPR говорится, что субъекты данных имеют право потребовать, чтобы их данные были удалены как можно скорее. Но в некоторых случаях это право может быть отменено. Например, когда данные необходимы для выполнения других юридических обязательств или достижения какой-либо цели в общественных интересах. Итак, что это означает для сборщиков данных? Как это изменит ваш рабочий процесс? Вы захотите предоставить субъектам четкую информацию и практические способы запроса данных.

Уведомление и согласие призваны уведомить субъектов о том, как их данные планируется использовать, и получить их согласие, чтобы субъекты могли выбирать, хотят они участвовать или нет. Решение должно быть информированным, что означает, что субъект обладает достаточными знаниями и пониманием, чтобы принять решение. А это исключает ложь, обман или частичное раскрытие информации. Решение должно быть добровольным, когда субъект добровольно дает согласие, исключая принуждение или ненадлежащее давление или влияние. Субъект должен быть дееспособным, обладающим способностью принимать решения, необходимой для предоставления согласия, что исключает детей или взрослых, признанных умственно неполноценными.

Теперь мы обратимся к связанному с этим вопросу о том, как будут собираться данные. Как вы, наверное, знаете, хорошие репрезентативные данные имеют решающее значение. Поэтому важно предвидеть возможные недостатки выбранного метода. Как сказала Кейт Кроуфорд, главный исследователь Microsoft и профессор Инженерной школы Тандон при Нью-Йоркском университете:

"Нам нужно спросить, какие люди исключены. Какие места менее заметны? Что произойдет, если вы будете жить в тени больших наборов данных?»

Проблемы со сбором данных тесно связаны с вопросами предвзятости. Наконец, сбор правильных данных может быть сложным, дорогостоящим и длительным процессом. Вот почему особенно вдохновляет наблюдать за движением в сообществе машинного обучения к обмену общедоступными наборами данных с открытым исходным кодом. Это не только делает работу с ML проще, чем когда-либо прежде, но и повышает доступность, потому что способствует инновациям и здоровой конкуренции. И именно так мы получим лучшие продукты, которые улучшат мир, в котором мы живем.

Источник: https://www.mantodea.io/ai/responsible-ai-and-data-collection%ef%bf%bc/