Как изменить способ создания продуктов машинного обучения

Добро пожаловать в последнюю статью из нашей серии Lean Machine Learning. Прежде чем приступить к этой статье, рекомендуем сначала ознакомиться с Частью 1 и Частью 2. Подводя итог, мы обсудили, как создавать более качественные продукты для машинного обучения, применяя подход Эрика Риса к бережливому стартапу.

В частях 1 и 2 мы описали, как создать желаемый, выполнимый и жизнеспособный продукт машинного обучения. Каждая из этих областей является частью традиционной инновационной зоны (ISS). Мы посвятили нашу последнюю статью в этой серии чрезвычайно важной теме — этике. Хотя мы не считаем себя экспертами в области этики данных, мы надеемся повысить осведомленность об этой растущей области науки о данных.

В этой статье мы разделим этику данных на четыре раздела: источники данных, безопасность, конфиденциальность и влияние на общество. Хотя это не исчерпывающий список, он представляет собой хороший обзор темы.

Источники данных

Чтобы описать, как источники данных связаны с этикой данных, нам сначала нужно определить, что такое источник данных. В основном мы будем ссылаться на источник данных как на данные, которые вы получаете для обучения и тестирования своих моделей машинного обучения. Однако важно отметить, что сама модель может считаться источником данных. Многие специалисты по данным не начинают строить модель с нуля. На самом деле, они часто предпочитают использовать модель как часть своего более крупного решения. Например, специалист по данным может отправить текст через модель встраивания слов, чтобы создать функции для своей собственной модели.

Для любого источника данных, который вы используете для создания модели машинного обучения, важно знать, откуда берутся данные и как они были созданы. Вы должны начать с понимания качества ваших данных, так как оно будет иметь большое влияние на результаты вашей модели (мусор на входе, мусор на выходе).

Семь измерений качества данных

Качество данных часто оценивается по семи параметрам: точность, полнота, охват, соответствие, непротиворечивость, своевременность и уникальность. Давайте посмотрим, что означает каждый из них.

Точность. Точность относится к соотношению данных с их истинной формой. Набор данных с низкой точностью может содержать множество ошибок из-за ручного ввода данных.

Полнота.Полнота относится к доступности необходимых атрибутов данных. Например, для большинства электронных файлов требуется, чтобы при создании файла были указаны автор, дата создания и т. д. Файл — это данные, а автор, дата создания и т. д. — атрибуты данных или метаданные. У вас может быть любое количество обязательных или необязательных метаданных, связанных с каждой точкой данных, записанной в вашем наборе данных.

Покрытие. Покрытие — это доступность необходимых записей данных. Представьте, что вы собираете результаты тестов на Covid, но выбираете собирать только положительные случаи Covid. Хотя изначально вас могут интересовать только положительные случаи, чтобы модель машинного обучения предсказывала результаты Covid, ей необходимо видеть примеры положительных и отрицательных случаев. Плохой охват является наиболее распространенным примером систематической ошибки выборки.

Соответствие. Под соответствием понимается соответствие содержимого данных требуемым стандартам. Например, если вы собираете номера кредитных карт, вероятно, все они должны быть целыми числами. Соответствует ли ваш набор данных этому стандарту?

Согласованность. Согласованность показывает, насколько хорошо данные соответствуют требуемым форматам и определениям. Это может звучать похоже на соответствие, но вместо того, чтобы проверять, соответствуют ли данные стандарту, мы проверяем, насколько непротиворечиво выравнивание.

Своевременность. Своевременность — это валюта представленного контента, а также то, доступны ли данные и могут ли они использоваться, когда это необходимо. Например, не помогает получать ежемесячные данные, когда они нужны вам еженедельно, а то и ежедневно.

Уникальность. Уникальность заключается в том, что записи записываются только один раз. Другими словами, есть ли в вашем наборе данных дубликаты? Например, возможно, у вас есть дубликаты пользователей, что означает, что количество активных пользователей за день искажено.

Хотя это может показаться странным, каждое из этих измерений можно применить и к модели машинного обучения. Например, является ли ваша модель своевременной? Предоставляете ли вы прогноз, когда это необходимо? Это включает в себя обеспечение готовности входных данных в модель, а также достаточно быстрое предсказание модели, чтобы предоставить прогноз, когда это необходимо.

Предвзятость в источниках данных

Когда люди впервые обсуждают этику в области науки о данных, они обычно думают о предвзятости моделей. Возьмем, к примеру, обзорщика резюме Amazon, который дискриминировал женщин. Однако смещение модели обычно вызвано смещением в исходном источнике данных.

Если вы помните свой первый урок вероятности и статистики, вы, вероятно, узнали разницу между выборкой и генеральной совокупностью. Работая с данными в реальном мире, вы почти всегда работаете с выборкой, а не с фактической совокупностью. Даже если вы представитель Apple, у вас нет всех пользовательских данных iPhone на Земле.

Из пользовательских данных, которые у вас есть, у вас, вероятно, есть различное поведение этих пользователей. Некоторые пользователи постоянно взаимодействуют с вашими приложениями, загружая фотографии, отправляя сообщения и т. д., в то время как другие пользователи никогда не загружают фотографии. Итак, в этой реальности, как создать «репрезентативный» набор данных? Вероятно, вам придется потратить много денег на создание приложений, которые проникнут в сегменты рынка, чтобы вы могли охватить недостающую часть населения.

Но что, если вы даже не знаете, что сегмент существует? В конечном счете, вам нужно очень много работать, чтобы определить момент, когда вы сталкиваетесь с новым сегментом, и быстро адаптировать свой набор данных, чтобы включить этот сегмент населения. Это нелегкий подвиг — для его правильного выполнения требуются серьезные размышления и деньги.

Выявление и понимание предвзятости модели имеет решающее значение в любом продукте машинного обучения. На мой взгляд, качество данных является конкурентным преимуществом для вашего бизнеса. Предвзятые данные или данные, которые не отражают население должным образом, делают организацию уязвимой. Другие, обладающие лучшими данными, могут и будут превзойти вас.

Хотя этика данных — это тема, которая сегодня может быть запоздалой во многих организациях, она не будет сохраняться в будущем, поскольку компании с более качественными данными будут лучше обслуживать своих клиентов. Наши методы обработки данных должны быть улучшены, и предвзятость — это лишь одна из областей, вызывающих беспокойство в этом вопросе. Для ознакомления с одним из способов борьбы с предвзятостью посмотрите это видео о машинном обучении, управляемом поведением.

Безопасность данных и конфиденциальность

Многие люди используют термины «безопасность» и «конфиденциальность» взаимозаменяемо, но важно прояснить разницу между ними. Безопасность относится к тому, как ваши данные защищены, а конфиденциальность относится к тому, как ваши данные используются.

Нарушение данных Equifax в 2017 году является примером отсутствия безопасности данных — хакеры смогли получить доступ к миллионам имен клиентов, номерам социального страхования и даже номерам некоторых водительских прав. Многие специалисты по данным работают с данными из различных приложений, включая копии транзакционных баз данных. Эти данные должны быть защищены с тем же уровнем защиты, что и исходные данные.

С другой стороны, модель прогнозирования беременности Target 2012 года представляет собой отсутствие конфиденциальности данных. Target построила модель для прогнозирования различных ситуаций с целью увеличения продаж, и в одной ситуации они предсказали беременность подростка. Подросток не сообщила своим родителям, поэтому стало шоком, когда Target прислала купоны на детские товары. Теперь Target никто не взломал, и информация не была украдена, но в частную жизнь этого человека вторглись, и его личная ситуация была раскрыта. Во многих смыслах вы даже можете подумать, что Target нарушила HIPPA, поскольку они построили модель, которая могла предсказывать состояния здоровья, и они решили отправить информацию по почте.

Обеспечение безопасности данных

Итак, как мы справляемся с такими ситуациями? Что касается безопасности данных, я рекомендую вам позаимствовать передовую практику разработки программного обеспечения и сдвинуться влево, что способствует перемещению этапа жизненного цикла разработки программного обеспечения — в данном случае безопасности — на более ранний этап процесса.

Слишком часто безопасность данных обсуждается как последняя часть продукта машинного обучения, когда он готов к производству. Вместо этого очень важно привлекать команду по информационной безопасности вашей организации на самых ранних этапах разработки вашего продукта. Обеспечение правильной обработки данных даже во время проверки концепции (POC) имеет жизненно важное значение.

Два передовых метода обеспечения безопасности данных включают шифрование данных в состоянии покоя и использование наименьшего объема данных, необходимого для работы. Я признаю, что последнее сложно, если вы не знаете, какие данные вам нужны для создания модели. Но как только вы это узнаете, необходимо уменьшить объем раскрытия данных. В этом могут помочь надежные методы управления данными и документация.

Даже если у вас есть лучшие меры безопасности данных, ваша модель машинного обучения может косвенно раскрывать набор данных для обучения через интерфейс прикладного программирования (API). Умные хакеры могут получить информацию о вашем наборе обучающих данных с помощью вывода о членстве и инверсии модели.

Вывод о членстве — это метод, использующий оценки достоверности, создаваемые моделями машинного обучения. Если модель увидела точку данных в своем обучающем наборе, она, вероятно, будет иметь высокий показатель достоверности, когда встретит ту же точку данных в производственной среде. Хакер может использовать это в своих интересах, многократно запрашивая у модели точки данных с высокими показателями достоверности и используя их для воссоздания обучающей выборки, даже не имея доступа к базовым данным.

Инверсия модели — это еще один подход, который позволяет хакерам воссоздавать необработанные входные данные из выходных данных модели. Другими словами, хакеры могут построить модель, которая использует выходные данные другой модели, чтобы предсказать, какими были необработанные данные. Этот метод можно даже использовать для захвата контекста данных.

Конфиденциальность данных

Так как же нам предотвратить такие атаки, как вывод о членстве и инверсия модели? Чтобы ответить на этот вопрос, давайте обсудим конфиденциальность данных.

Хотя эта тема заслуживает отдельной статьи, я хотел бы кратко остановиться на дифференциальной конфиденциальности. Как Data Scientist вы, возможно, привыкли работать с необработанными данными. Однако при работе с данными отдельных пользователей это может нарушать права человека на неприкосновенность частной жизни. Дифференциальная конфиденциальность пытается решить эту проблему путем агрегирования или добавления шума к данным, чтобы отдельных пользователей больше нельзя было идентифицировать.

Дифференциальная конфиденциальность — серьезная проблема, а также наиболее многообещающее решение проблем безопасности, обсуждавшихся в предыдущем разделе. Ключом к дифференцированной конфиденциальности является возможность правдоподобного отрицания при сборе набора данных. Чтобы проиллюстрировать правдоподобное отрицание, вы можете думать об этом как об алгоритме, в котором вы подбрасываете монету, чтобы решить, получите ли вы истинный ответ или противоположный ответ. Хотя вы не будете иметь ни малейшего представления о том, какие ответы являются верными, а какие — ложными, вы можете вероятностно рассчитать, каким был истинный ответ в среднем для достаточно большой группы людей. Это мощно, потому что вы можете знать ответ, не зная ни одного индивидуального ответа. У каждого есть правдоподобное отрицание, а у вас есть совокупная правда.

Даже если вы думаете, что запутали набор данных, вы, вероятно, не учитываете все будущие хакеры данных, которые могут получить для идентификации людей в вашем наборе данных. Чтобы защитить конфиденциальность отдельных лиц, вы должны тщательно продумать создание правдоподобного отрицания с помощью дифференциальных алгоритмов конфиденциальности.

Важность консультативных советов по машинному обучению

Нужна деревня, чтобы должным образом обращаться с конфиденциальностью данных. Наличие разнородной группы людей в консультативном совете по машинному обучению — отличный способ обеспечить соблюдение мер конфиденциальности данных. Всесторонний консультативный совет, скорее всего, будет включать в себя представителей различных отделов, включая отдел кадров, юридический отдел, отдел информационной безопасности, управления продуктами и инженерный отдел. Кроме того, очень важно включить в эту группу лидеров из ваших подразделений по этике, разнообразию и инклюзивности. Консультативный совет также должен иметь автономию и полномочия для принятия решений. Нет ничего более разочаровывающего, чем консультативный совет, который не может внести изменения, необходимые для соблюдения хороших этических стандартов.

И последнее соображение для консультативных советов — приемлемое использование модели после ее выпуска. Как только модель начинает делать прогнозы, есть большая вероятность, что кто-то захочет применить эти прогнозы (или даже саму модель) к новому, потенциально непреднамеренному варианту использования. Важно, чтобы модель имела надлежащую документацию и управление данными, чтобы предотвратить это, и любой новый вариант использования модели или ее данных должен быть тщательно рассмотрен консультативным советом.

Влияние модели машинного обучения на общество

И последнее, но не менее важное в нашем обсуждении этики данных, мы должны рассмотреть, как наши модели машинного обучения влияют на общество. Какое влияние наши модели оказывают на людей?

Имеются некоторые ужасающие статистические данные о том, как алгоритмы меняют отношение молодых подростков к себе. Мы также видели, как алгоритмы могут непреднамеренно увековечивать исторические расистские клише. Хотя 10 лет назад для компаний могло быть приемлемым извиняться и говорить: Мы не знали, что это произойдет, сейчас нет оправдания.

Мы знаем, что машинное обучение может иметь непредвиденные последствия для общества. Крайне важно, чтобы консультативные советы по машинному обучению помогали специалистам по данным учитывать потенциальное воздействие на общество, и для его измерения должны быть созданы метрики. Да, это сделает машинное обучение более дорогим, но это цена, которую мы должны нести от компаний.

Модели машинного обучения также влияют на общество через выбросы углерода и практику эксплуататорской маркировки данных. Многие из самых сложных алгоритмов машинного обучения являются дорогостоящими в вычислительном отношении, что приводит к более высокому углеродному следу и увеличению финансовых затрат. В случае сложности алгоритма компании, естественно, заинтересованы в использовании более простых моделей, поскольку их реализация менее затратна. Но как насчет рабочей силы, которая используется для маркировки всех этих данных для создания моделей машинного обучения? Крупные организации часто нанимают или нанимают весь персонал для маркировки данных. Во многих ситуациях эти люди происходят из более низкого социально-экономического положения, и при использовании этих систем становится легко эксплуатировать целые классы людей. Важно, чтобы компании разработали этическую политику, чтобы помочь защитить эту рабочую силу от эксплуатации.

Заключение

Хотя машинное обучение было одним из самых популярных словечек нашей эпохи, его этические дилеммы начинают становиться все более заметными для всех нас. Такие фильмы, как «Социальная дилемма», только начинают освещать эту важную тему.

Если это ваше первое знакомство с этикой данных, вы можете быть перегружены всеми областями, которые необходимо учитывать при реализации модели машинного обучения. Хорошая новость в том, что вам не нужно действовать в одиночку. Положитесь на людей в вашей организации из других областей, таких как юриспруденция и информационная безопасность, чтобы помочь вам принимать обоснованные решения относительно конфиденциальности данных и безопасности для вашей модели. А еще лучше проконсультируйтесь с консультативным советом по машинному обучению вашей компании, если он у них есть.

Компаниям потребуется время, чтобы уделять больше внимания этике данных в машинном обучении, но будущее у них светлое. В сообществе машинного обучения есть сильное желание решить эти проблемы, и мы с нетерпением ждем возможности узнать больше, поскольку эта область продолжает развиваться.

Рекомендации

  1. https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G
  2. https://youtu.be/fYQwnyizP9s
  3. https://en.wikipedia.org/wiki/2017_Equifax_data_breach
  4. https://www.driveresearch.com/market-research-company-blog/how-target-used-data-analytics-to-predict-pregnancies/
  5. https://www.bbc.com/news/technology-58462511
  6. https://www.theguardian.com/technology/2021/sep/14/facebook-aware-instagram-harmful-effect-teenage-girls-leak-reveals