Открытый стандарт этичного ИИ корпоративного уровня

Так же, как изобретение колеса, печатного станка или компьютера, искусственный интеллект (ИИ) радикально изменит способ работы предприятий.

Это такая революция, что затронут все отрасли без исключения: транспорт, электронная коммерция, образование, здравоохранение, энергетика, страхование,…

Путь к внедрению ИИ в масштабах всей организации

Наиболее эффективные организации завтрашнего дня делегируют большую часть своих процессов интеллектуальным алгоритмам принятия решений.

Здесь мы имеем в виду алгоритмы, основанные не только на простых бизнес-правилах if / then / else, созданных вручную, но и на сложных Правила принятия решений, усвоенные машиной, нечитаемые человеческим мозгом.

Здесь мы имеем в виду алгоритмы, основанные не только на нескольких переменных, но и на сотнях переменных.

Давайте теперь представим тысячи таких алгоритмов машинного обучения, развернутых в масштабе и выполняющих 100% процессов всей компании: выставление счетов, клиент поддержка, покупка, электронная почта, найм,… Если задуматься, возникают серьезные вопросы о этике, справедливости и доверии при использовании этих ИИ.

Возьмем лишь несколько примеров:

как контролировать, что алгоритм № 2834 отбора кандидатов на собеседование не использует запрещенные особые категории личных данных, например политические взгляды или этническое происхождение?
Мы уверены, что алгоритм № 7382, рекомендующий повышение заработной платы сотрудников, не был обучен на предвзятом или дискриминационном наборе данных (например, на наборе данных с мужчинами более оплачиваемыми, чем с женщинами)?
Могу ли я объяснить своему клиенту, как алгоритм № 3918 рассчитывает цену своего предложения?
насколько точен алгоритм №5842, определяющий приоритеты запросов клиентов?
on so on …

Фактически, мы видим, что четкие ответы на эти вопросы быстро становятся необходимостью для достижения широкого внедрения надежных ИИ в организациях.

Потребность в этическом стандарте искусственного интеллекта

В Zelros мы манипулируем множеством алгоритмов машинного обучения - они лежат в основе нашего продукта. Наши клиенты (страховщики в нашем случае, но это будет верно для всех отраслей) регулярно сталкиваются с проблемами, что у них внутри, и даже право использовать их .

Нам быстро понадобился инструмент для прозрачного преодоления разрыва между кодом наших специалистов по обработке данных и законными вопросами владельцев бизнеса, использующих наш продукт, ориентированный на искусственный интеллект.

Эта необходимость побудила нас разработать структуру, способствующую более понятному и прозрачному ИИ.

Публикация нашего стандарта этичного ИИ в масштабах предприятия

Сегодня мы объявляем о выпуске нашего стандарта прозрачного использования алгоритмов машинного обучения на предприятиях.

Мы решили опубликовать его публично на нашем github, потому что знаем, что это всего лишь несовершенная предварительная версия. Для улучшения он должен быть рассмотрен внешними участниками. Сделав наш стандарт общедоступным, мы надеемся, что он станет заметным и привлечет как можно больше отзывов. Мы хотели бы узнать:

как часто можно использовать стандарт?
в каких случаях стандарт не адаптирован?
чего не хватает в стандарте?
…

Семь разделов, эволюционный стандарт

Предлагаемый нами стандарт имеет форму «контрольного списка», который должна документировать каждая модель машинного обучения, встроенная в продукт или услугу. Мы считаем, что заполнение этого стандартного документа для каждой производственной модели ИИ способствует их отслеживаемости, соответствию и прозрачности.

Стандарт состоит из семи разделов. Полная информация о каждом из них объяснена на github, но вот краткое изложение:

1. Общая информация

В этом разделе дается общая информация о контексте использования алгоритма машинного обучения: кто его разработал, когда обучался и, что наиболее важно, об его основной цели.

2. Исходные данные

В этом разделе документируются исходные данные, используемые для обучения модели: размер, содержание (описание переменных,…).

Более того, в отчете предоставляется уникальная подпись набора данных, чтобы можно было проверить подлинность набора данных во время аудита. Уникальная подпись также вычисляется после каждой обработки данных в разделах 3 и 4 ниже.

3. Подготовка данных

В этом разделе описывается, производились ли какие-либо предварительные манипуляции с данными перед обучением алгоритма машинного обучения: какие-либо строки или столбцы были удалены, любое отсутствующее значение заменено… - и как - данные были изменены.

4. Разработка функций

В этом разделе указывается, была ли создана какая-либо ручная переменная.

Он также объясняет, как была построена цель - явление, которое мы хотим предсказать с помощью нашего алгоритма.

Набор данных на выходе этого раздела - это набор данных, используемый для обучения алгоритма машинного обучения.

5. Аудит обучающих данных

В этом разделе представлены различные статистические описания набора данных, используемого для обучения. В основном процент появления значений каждой переменной, статистическое разделение предсказанного явления по значениям переменных,…

Этот раздел важен для выделения потенциальных смещений или несбалансированности в наборе данных.

6. Описание модели

В этих разделах представлена информация о типе используемого алгоритма (логистическая регрессия, случайный лес, нейронная сеть и т. Д.), Его гиперпараметрах, стратегии проверки и его производительности (точность,…).

Также предоставляется уникальная подпись обученной модели, чтобы контролировать, действительно ли запущенная в производстве модель действительно задокументирована в сопутствующем описательном документе.

7. Модельный аудит

Наконец, в этих разделах содержится понимание обученной модели машинного обучения: какие переменные являются наиболее важными для прогнозирования, как повышается точность при добавлении дополнительных данных, стабильность модели с течением времени и т. Д.

Как внести свой вклад?

Как упоминалось ранее, мы надеемся получить отзывы об этом стандарте, чтобы сделать его еще более надежным и полезным. Для этого смело:

предлагать PR (pull request) в стандартном репозитории github
свяжитесь с нами по этому адресу

Мы будем держать вас в курсе новых идей, связанных с этим проектом. Будьте на связи!