Большинство моделей машинного обучения в академических кругах обучаются и оцениваются на общедоступных наборах данных. Для компаний, работающих в финансовом секторе или занимающихся проверкой личности, это не всегда возможно. Транзакции проверки личности очень чувствительны, поскольку каждая транзакция содержит один или несколько снимков паспорта клиента, национального удостоверения личности или другого удостоверения личности с фотографией, а также селфи. Этот постоянный поток изображений предоставляет прекрасную возможность для разработки алгоритмов компьютерного зрения путем обучения моделей машинного обучения в нескольких областях, таких как извлечение данных, биометрия или обнаружение мошенничества. Однако возможности, предоставляемые этими данными, требуют подотчетности как правительству, так и отраслевым регулирующим органам.

Компании, работающие с конфиденциальными данными, должны соблюдать ряд нормативных требований. Сертификация PCI (индустрии платежных карт) регулирует среду, в которой обрабатываются данные кредитных карт. ISO 27001 определяет передовые методы управления конфиденциальными данными. Компании, работающие в европейском регионе, должны соблюдать GDPR (Общий регламент по защите данных). Итак, каковы последствия соответствия и как можно обучать модели в таких средах?

Доступ к данным

Потребности в машинном обучении находятся в противоречии с требованиями, вытекающими из передового опыта управления конфиденциальными данными. Инженерам машинного обучения и специалистам по обработке данных требуется максимальная гибкость для выполнения своей работы без ущерба для безопасности и конфиденциальности клиентов. Им нужен доступ к производственным изображениям, чтобы просматривать их и проводить эксперименты, но под строгим контролем. Среда, в которой они работают, должна позволять выполнять исследовательский анализ данных, быстрое создание прототипов и визуальную проверку изображений при сохранении строгого контроля доступа, ведения журналов аудита и стандартов физической безопасности.

Контроль доступа. Только те люди, которым нужен доступ к конфиденциальным данным, могут получить его. Как правило, инженеры, работающие над инфраструктурой машинного обучения и инструментами для машинного обучения, не имеют доступа к данным. Многофакторная аутентификация является обязательной для инженеров / специалистов по машинному обучению для доступа к любым производственным данным / инфраструктуре.

Ведение журнала аудита. Весь доступ к изображениям и метаданным регистрируется, отслеживая, кто, когда и откуда получил доступ к данному файлу. Данные не должны покидать среду, доступ к которой контролируется и регистрируется (то есть отсутствие копий на ноутбуках или других внешних носителях).

Физическая безопасность. Компьютеры, подключенные к сети, которая обеспечивает прямой доступ к изображениям, находятся в специальной комнате с дополнительной физической безопасностью. Эта сеть не разрешает общедоступный доступ в Интернет. Дополнительные меры безопасности включают камеры и считыватели отпечатков пальцев.

Исследовательский анализ данных. Инженерам машинного обучения и специалистам по обработке данных требуется способность быстро определять основные статистические свойства входящего потока данных, чтобы понимать модальность данных. Это включает анализ свойств изображения (например, распределение размеров лиц на изображениях селфи) и метаданных (например, структурированных данных и распределения типов документов).

Компьютерное зрение. Инженеры машинного обучения и специалисты по обработке данных должны визуально проверять изображения на дисплеях своих компьютеров. Изображения представляют собой богатый информацией формат данных, который невозможно описать достаточно подробно, используя только их статистические свойства. Анализ выбросов невозможен без просмотра изображений.

Прототипирование. Инженеры машинного обучения и специалисты по обработке данных часто нуждаются в быстром создании прототипов и оценке их с использованием производственных данных. Это позволяет им сравнивать подходы и решать, какой из них с большей вероятностью сработает или лучше решит бизнес-проблему.

Управление набором данных

Для обучения и оценки моделей машинного обучения наборы данных должны быть построены из неорганизованного озера данных, содержащего все данные из входящих потоков данных. Вышеупомянутые ограничения доступа к данным в сочетании с дополнительными требованиями, применимыми к наборам изображений (в отличие от экземпляров одиночных транзакций), формируют наши политики управления наборами данных.

Шифрование. Неоспоримым требованием является шифрование всех данных как при передаче, так и при хранении. Никто не хочет узнавать, что списанные тома данных содержат их личные данные или что эти данные передаются по сети в незашифрованном виде. Это можно сделать прозрачно, чтобы инженерам по машинному обучению и специалистам по обработке данных не приходилось сталкиваться с дополнительными сложностями. Это не только практическое требование, но и предмет регулярных проверок сертификационным органом PCI-DSS.

Хранение наборов данных. В ML мы часто работаем с производными данными, которые потенциально содержат информацию, позволяющую установить личность (PII). Определение наличия PII может быть очень трудным: например, случайные обрезки изображений могут содержать часть адреса держателя идентификатора. В некоторых случаях PII даже не видна напрямую. Вложение или веса генеративной модели могут использоваться для извлечения запомненных обучающих данных и, таким образом, PII. Чтобы снизить риск случайного сохранения невидимой PII, производные данные должны иметь определенный срок хранения.

Запросы на удаление. GDPR требует, чтобы все запросы на удаление, поступающие от клиентов, обрабатывались своевременно (это называется минимизация данных на языке GDPR). Это означает, что должна быть возможность отслеживать все копии изображения во всех наборах данных, начиная с исходной транзакции.

Согласие клиента. Только данные с согласия клиента могут использоваться для ML. В Jumio необходимо строго придерживаться этого правила. Только данные от клиентов, которые дали свое согласие, попадают в среду, где выполняются учебные задания. Это гарантирует, что мы не создаем и не обучаем данные пользователей случайно без надлежащего согласия.

Раздельное хранение данных. Клиенты могут дать согласие на использование своих данных для моделей обучения, которые используются для них, но не для других клиентов. Это еще одна причина поддерживать отслеживаемость от входных транзакций через наборы данных до обученных моделей.

Изготовление модели

Жизненный цикл машинного обучения не заканчивается после обучения модели. Запуск моделей в производственных системах создает дополнительные проблемы, которые могут быть не видны при работе с одним статическим набором данных. Соблюдение нормативных требований накладывает очень сильные ограничения на управление выпусками и доступ к производственным системам. Это необходимо учитывать при проектировании инфраструктуры машинного обучения.

Воспроизводимость. Ключ к предоставлению высококачественных услуг - это возможность легко переобучить модель с помощью обновленных версий набора данных. Это означает, что для переобучения модели требуется управление версиями набора данных и автоматизация. Воспроизводимость также необходима для точного воссоздания решений, принятых производственными моделями в среде разработки, чтобы понять, почему были приняты определенные решения, и проанализировать случаи, когда модель ведет себя не так, как ожидалось.

Онлайн-мониторинг. Правительства регулярно обновляют национальные удостоверения личности и паспортные документы, на основании которых наши модели ОД принимают решения. Мир динамичен, а набор данных - это всего лишь статический снимок прошлого. Маргинальный тип документа (то есть тип документа, который мы не проверяем в большом количестве) может со временем расти и становиться все более важным. Вдобавок ко всему, проверка личности работает в мире злоумышленников, где мошенники неустанно работают над обманом системы. Эти факторы требуют тщательного мониторинга наших производственных моделей для выявления отклонения концепции.

QA. Все выпуски в производство должны проходить оценку качества как с точки зрения машинного обучения, так и с инженерной точки зрения. Это ограничивает возможность быстрой итерации и оценки экспериментальных рабочих процессов в производственной среде, но важно для безопасности и целостности данных.

Документация по выпуску. Выпуски документируются для отслеживания версий модели, обслуживающего приложения и базовых версий контейнера, наборов данных, используемых для обучения и оценки модели. Это требование для соответствующего управления выпусками, а также помогает анализировать подозрительные решения, принимаемые моделями в производстве.

Среды

Руководящая философия в этом проекте - отделение жизненного цикла разработки программного обеспечения от разработки модели машинного обучения и создание безопасных сред с централизованно управляемым доступом к данным для обучения и оценки модели. В сфере разработки программного обеспечения используется стандартизированный трехэтапный конвейер со средами разработки, тестирования (QA) и производственной средой. Одни и те же среды нельзя использовать для разработки машинного обучения по следующим причинам:

  • Машинное обучение зависит от производственных данных, которые недоступны в средах подготовки и разработки программного обеспечения. Эти среды не считаются достаточно безопасными для хранения таких конфиденциальных данных.
  • ML-разработка - это очень итеративный процесс, который требует даже большего количества прототипов, чем разработка программного обеспечения. Его невозможно повторить достаточно быстро, учитывая сложность развертывания в производственной среде, совместимой с PCI. Написание прототипов в производственном качественном коде - неэффективное использование времени инженера машинного обучения.
  • Необходим практический доступ к производственным данным (например, исследовательский анализ, компьютерное зрение). Невозможно предоставить такой уровень доступа инженерам машинного обучения в производственной среде.
  • Даже если было найдено решение для двух вышеупомянутых проблем, запускать экспериментальный код в производственной среде слишком рискованно.
  • Машинное обучение зависит от стабильной инфраструктуры и инструментов для выполнения заданий по обучению, маркировке и оценке (с инженерной точки зрения это услуги производственного уровня).

Решение этой проблемы предполагает создание отдельных сред подготовки и разработки для групп машинного обучения. Обучающая среда машинного обучения - это площадка для инженеров машинного обучения и специалистов по данным, где они могут проверить любые безумные идеи на производственных данных. На эту площадку попадают только данные с согласия клиента.

В промежуточной среде машинного обучения выполняются тихие рабочие процессы - альтернативные варианты производственных рабочих процессов, которые выводят только журналы. Это позволяет использовать несколько претендентов (альтернатив) чемпиона (основная версия) в производственной среде. В отличие от среды разработки, среда машинного обучения содержит реальные производственные данные, что позволяет напрямую сравнивать результаты рабочих процессов претендента с текущим лидером производства без искажения производственных данных. Это также место, где инженеры машинного обучения анализируют решения модели в случае подозрительного поведения.

С точки зрения разработки программного обеспечения и инфраструктуры эта среда машинного обучения является стабильной и содержит инфраструктуру производственного уровня и службы для управления экспериментами, обучением и т. Д. Это гарантирует безопасность данных в среде и надежность результатов вычислений.

Служба управления наборами данных

Эта служба играет центральную роль в общей архитектуре. Он регулирует поток данных из производственной среды в среды машинного обучения. Это дает надежные гарантии того, что мы никогда не будем обучаться работе с данными без согласия клиента. Вторичная (но не менее важная) роль службы - обрабатывать запросы на удаление.

Запрос данных. Эта служба автоматизирует создание наборов данных. Можно запрашивать все озеро данных и фильтровать транзакции, чтобы выбрать хорошо сбалансированный набор данных для данной задачи.

Управление версиями набора данных. Наборы данных - это не просто коллекции изображений, но неизменяемые объекты первого класса. Неизменяемость способствует воспроизводимости. Наборы данных поддерживают набор четко определенных операций (например, слияние, объединение, фильтрация). Результатом этих операций является новая версия набора данных. Это предотвращает недоразумения, которые могут возникнуть при оценке измененных наборов данных.

Запросы на удаление. Служба управления наборами данных отвечает за обработку запросов клиентов на удаление. Такие запросы удаляют все изображения и метаданные PII, связанные с данной транзакцией, из всех наборов данных. Это единственное исключение из неизменяемости набора данных. Это досадное требование с точки зрения специалистов по данным, но они должны помнить об этом при оценке моделей.

Просмотр и маркировка данных

Большинство современных моделей компьютерного зрения обучаются под наблюдением. Обилие размеченных данных - ключ к обучению этих моделей. Для этой цели Jumio поддерживает большой пул специалистов по этикеткам, которые помогают в создании наборов данных. С точки зрения специалиста по данным, выполнение задания по маркировке хорошо автоматизировано. Они создают набор данных, определяют задачу маркировки, объясняют подводные камни (например, что искать в сложных случаях), а затем отправляют задачу в очередь обработки. Поскольку работа по маркировке не передается сторонним организациям, поддерживаются очень высокие стандарты конфиденциальности и безопасности, то есть изображения никогда не покидают защищенную среду и просматриваются только в специальных помещениях для обработки.

Эти помещения для обработки имеют усиленную безопасность, которая позволяет получать доступ и просматривать изображения. Они имеют биометрические средства контроля доступа (например, считыватели отпечатков пальцев) и отвечают другим строгим требованиям, таким как отсутствие прозрачных окон. Помещения для обработки в центрах OPS используются специалистами по маркировке для выполнения задач по маркировке данных. В инженерных подразделениях инженеры машинного обучения могут использовать их для безопасной работы над исследовательским анализом, быстрого создания прототипов моделей, отладки тихих рабочих процессов и т. Д.

Вывод

В некоторых конфиденциальных областях использование чрезвычайно ценных данных может показаться очень проблематичным. Инженеры машинного обучения должны быть очень осторожны, используя возможности, которые предоставляют данные PII для обучения моделей машинного обучения и для решения сложных проблем компьютерного зрения. В этом сообщении блога мы продемонстрировали, что можно спроектировать инфраструктуру и рабочие процессы, которые не ставят под угрозу безопасность и не подвергают риску пользовательские данные, обеспечивая при этом гибкость, необходимую инженерам по машинному обучению и специалистам по обработке данных для выполнения своих повседневных задач по разработке прогнозных моделей.