Synthetic Data Vault — «Как выглядит будущее?

Введение:

Синтетические данные — это информация, которая создается искусственно, а не в результате реальных событий.

Synthetic Data Vault (SDV) — это экосистема библиотек для создания синтетических данных, которая позволяет пользователям легко изучать однотабличные, многотабличные наборы данных и наборы данных временных рядов для последующего создания новых синтетических данных, которые имеют тот же формат и статистические свойства, что и наборы данных. исходный набор данных.

SDV использует различные алгоритмы машинного обучения, чтобы изучать шаблоны из реальных данных и эмулировать их как синтетические данные.

Преимущества хранилища синтетических данных:

· Защищает конфиденциальность и конфиденциальность подлинных данных.

· Создает реалистичные профили поведения для пользователей и злоумышленников.

· Синтетические данные генерируются для удовлетворения конкретных потребностей или условий, которые недоступны в существующих (реальных) данных.

· Генерация дополнительных наборов данных для обучения моделей машинного обучения.

· Тестирование данных для новых продуктов и инструментов.

· Сбор некоторых типов данных требует больших затрат или встречается редко, в то время как создание синтетических данных обходится недорого.

· Он генерирует сбалансированный набор данных путем нормализации и выборочного рассмотрения данных из несбалансированного набора данных.

· Синтетические данные из-за их тесной статистической связи с реальными данными и невозможности связать их с реальными данными (о физических лицах/клиентах) считаются лучшей альтернативой анонимизации и маскированию данных.

· Синтетические данные могут дополнять некоторые небольшие наборы данных, которые были проигнорированы из-за предвзятости.

· Синтетические данные направлены на сохранение многомерных отношений между переменными, а не только на конкретную статистику.

Приложения синтетического хранилища данных:

· Тестирование и обучение систем обнаружения мошенничества и конфиденциальности разрабатываются с использованием синтетических данных, поскольку они представляют собой аутентичные данные и могут включать в себя случаи вторжений, которых нет в аутентичных данных.

· Исследователи, проводящие клинические испытания или любые другие исследования, могут генерировать синтетические данные, чтобы помочь в создании основы для будущих исследований и испытаний. Синтетические данные уменьшают проблемы конфиденциальности и конфиденциальности, поскольку они не содержат личной информации и не могут быть отслежены до какого-либо человека.

· SDV используются как реальные наборы данных в демонстрациях, симуляциях, прототипах и средах разработки/тестирования, где реальные данные не подлежат обмену по соображениям конфиденциальности.

· Модели глубокого обучения, такие как вариационный автоматический кодировщик и модели генеративно-состязательной сети (GAN), представляют собой синтетические методы генерации данных, которые повышают полезность данных за счет подачи в модели большего количества данных.

· Там, где реальных данных не существует, единственным решением являются синтетические данные.

· Синтетические данные могут иметь совершенно точные метки.

Отраслевые приложения SDV:

· Отрасли получат большую выгоду, если они будут использовать синтетические данные для лучшего обучения моделей или создания соответствующих тестовых данных. Большинству приложений и служб необходимо расширить свой набор данных из-за ограниченной доступности реальных данных или их отсутствия.

· Страховые компании могут использовать SDV для создания синтетических данных, представляющих различных страхователей с различными профилями рисков. Это позволяет андеррайтерам анализировать различные сценарии и точно оценивать потенциальные риски.

· Создавая искусственные данные, имитирующие схемы мошеннических действий, страховые компании могут обучать модели обнаружения мошенничества без ущерба для конфиденциальной информации о клиентах. SDV помогает выявлять новые схемы мошенничества и повышает точность систем обнаружения мошенничества.

· SDV позволяет командам по управлению рисками моделировать различные стрессовые сценарии, такие как экономический спад или катастрофические события, для оценки их влияния на портфели. Синтетические данные позволяют им проводить обширный анализ рисков, не раскрывая фактические данные о клиентах.

· Модели риска могут быть проверены с помощью SDV путем создания синтетических данных, которые напоминают данные реального мира. Это обеспечивает точность и надежность моделей риска при сохранении конфиденциальности.

· SDV может помочь командам по управлению активами в анализе инвестиционных портфелей без ущерба для конфиденциальности их клиентов. Синтетические данные могут представлять различные инвестиционные стратегии и распределения активов, обеспечивая надежный анализ и оптимизацию.

· Используя SDV, команды по управлению капиталом могут разрабатывать персонализированные рекомендации для клиентов на основе их финансовых целей, склонности к риску и рыночных условий. Синтетические данные помогают адаптировать рекомендации без доступа к реальным данным клиента.

Проблемы, связанные с внедрением SDV:

· Качество синтетических данных тесно связано с качеством входных данных и модели генерации данных. Если последнее не в хорошем состоянии, синтетическое хранилище данных имеет меньшую ценность.

· Общее представление о том, что синтетические данные не так хороши, как реальные данные, и на них нельзя полагаться, необходимо разрушить.

· Смещение входных данных приведет к смещению синтетических данных; следовательно, входные данные должны быть чистыми и непредвзятыми.

· Объяснимость данных может быть поставлена под сомнение по этическим соображениям и причинам оригинальности данных.

· При бомбардировке синтетическими данными в будущем различение реальных и синтетических данных может стать серьезной проблемой.

· Обязательна проверка синтетических данных путем их сравнения с реальными данными.

· Из-за своего статистического сходства сгенерированные синтетические данные могут быть похожи на реальные данные (в прошлом или в будущем), что может привести к проблемам с конфиденциальностью.

Синтезатор:

SDV Synthesizer — это объект, который используется для создания синтетических данных. Он изучает шаблоны из реальных данных и воспроизводит их для создания синтетических данных.

Простой пример синтезатора

Используйте приведенную ниже команду для установки синтетического хранилища данных.

%pip install sdv

Синтезатор обучается на реальных данных с помощью предустановленного синтезатора, а затем используется для генерации/синтеза новых данных.

from sdv.lite import SingleTablePreset

synthesizer = SingleTablePreset(
    metadata,
    name='FAST_ML'
)
synthesizer.fit(
    data=real_data
)
synthetic_data = synthesizer.sample(
    num_rows=500
)

Конфиденциальные данные могут быть полностью анонимизированы для поддельных значений.

Показатель качества синтетических данных по сравнению с реальными данными можно определить с помощью встроенных функций, приведенных ниже.

from sdv.evaluation.single_table import evaluate_quality

quality_report = evaluate_quality(
    real_data,
    synthetic_data,
    metadata
)

Синтетические данные могут быть подвергнуты статистическому анализу по каждому столбцу, а ковариационный анализ того, как несколько столбцов коррелируют друг с другом, также может быть оценен с помощью доступных функций/показателей.

Сравнение синтетических данных с реальными данными также можно визуализировать с помощью отчетов о качестве.

quality_report.get_visualization('Column Shapes')

from sdv.evaluation.single_table import get_column_plot

fig = get_column_plot(
    real_data=real_data,
    synthetic_data=synthetic_data,
    column_name='amenities_fee',
    metadata=metadata
)
    
fig.show()

from sdv.evaluation.single_table import get_column_pair_plot

fig = get_column_pair_plot(
    real_data=real_data,
    synthetic_data=synthetic_data,
    column_names=['checkin_date', 'checkout_date'],
    metadata=metadata
)
    
fig.show()

Synthetizer может быть сохранен и повторно использован другими.

synthesizer.save('my_synthesizer.pkl')
synthesizer = SingleTablePreset.load('my_synthesizer.pkl')

Типы синтезаторов

Synthetic Data Vault можно использовать для синтеза данных в одной таблице или в нескольких таблицах, связанных друг с другом, или во временных рядах или последовательных событиях.

Синтезаторы с одним столом:

· Fast ML Preset можно использовать с минимальной настройкой.

· Синтезатор связки Гаусса использует классические статистические методы для обучения модели и создания синтетических данных.

· CTGAN Synthesizer использует основанные на GAN методы глубокого обучения для обучения модели и создания синтетических данных.

· TVAE Synthesizer использует методы нейронной сети на основе вариационного автоэнкодера (VAE) для обучения модели и создания синтетических данных.

· Синтезатор Copula GAN использует сочетание классических статистических методов и методов глубокого обучения на основе GAN для обучения модели и создания синтетических данных.

Многостоловые синтезаторы:

· HMA Synthesizer использует иерархический алгоритм машинного обучения для изучения реальных данных и создания синтетических данных. Алгоритм использует классическую статистику.

· HSA Synthesizer доступен только для корпоративных пользователей. Он использует алгоритм на основе сегментов, чтобы учиться на ваших реальных данных и генерировать синтетические данные. Этот синтезатор предлагает высокую производительность для неограниченного количества столов.

Последовательный синтезатор:

· PAR Synthesizer использует методы глубокого обучения для обучения модели и создания синтетических данных. Синтезатор PAR предназначен для работы с данными, состоящими из нескольких последовательностей, что означает, что в одном и том же наборе данных присутствует несколько последовательностей (обычно принадлежащих разным объектам).

Окончательный вариант:

Использование синтетических данных должно сочетаться со строгими процессами оценки и проверки, чтобы обеспечить их репрезентативность и точность. Кроме того, соблюдение соответствующих правил и законов о конфиденциальности данных должно быть приоритетом при внедрении хранилища синтетических данных.

Если причина и использование синтетических данных применимы для избранных вариантов использования, которые не препятствуют существованию и актуальности реальных данных, то синтетические данные получат резкое распространение. И это очень четко наблюдается в последние годы. Однако примерно в 70% случаев реальных данных (внутренних + внешних) достаточно много, и они используются не полностью.