Все, что вы всегда хотели знать о синтетических данных

Вам больше не нужны вопросы без ответов

«Значит, этот пакет создает огромное количество поддельных данных из этих реальных данных?»

«Вы можете так говорить, но это называется синтетическими данными».

«Но в чем смысл? Это будет шум. Почему бы вам не использовать сами фактические данные?»

«Можем, но данных недостаточно. Кроме того, при использовании реальных данных возникают проблемы с конфиденциальностью».

«О, так вы говорите, что эти синтетические данные аналогичны реальным данным, но не раскрывают личную информацию?»

MIT Technology Review отметил синтетические данные как одну из прорывных технологий 2022 года. Без синтетических данных мы не можем представить создание отличных моделей искусственного интеллекта, утверждает Gartner.

«По словам старшего вице-президента по искусственному интеллекту в Unity, синтетические данные на самом деле лучше реальных данных, и мы могли бы обогатить реальные данные за счет синтетических данных.

Несмотря на несколько кредитов на синтетические данные, у меня было много подобных разговоров с тем, что выше, где люди не знают об синтетических данных. Это гораздо больше, чем просто модное слово, и в этой статье я надеюсь пролить свет на то, что на самом деле представляют собой синтетические данные.

Я собрал вопросы друзей, коллег, сообществ с открытым исходным кодом и LinkedIn и попытался ответить на наиболее часто задаваемые вопросы об синтетических данных.

Давай погрузимся?

1. Что такое синтетические данные?

Синтетические данные — это искусственно сгенерированные данные, которые не собираются из реальных событий.

Синтетические данные, обеспечивающие конфиденциальность людей в данных, являются статистической копией фактических данных.

2. Почему нам нужно заботиться о синтетических данных?

Это восходит к проблеме, с которой сейчас сталкивается большинство ИИ-компаний.

Чтобы опередить конкурентов в цифровой трансформации, необходимы высококачественные данные», — говорит McKinsey. Опросив сотни специалистов по данным, YData пришла к выводу, что недоступность высококачественных данных — одна из самых больших проблем, с которыми сталкиваются специалисты по данным.

По данным VentureBeat на Transform 2019, 87% проектов по науке о данных никогда не будут использоваться в производственной среде. По данным исследования Harvard Business Review 2017 года, всего лишь 3% данных компаний имеют самый минимальный стандарт качества данных.

По оценкам Gartner, к 2024 году синтетические данные будут составлять около 60% всех данных, используемых для проектов по науке о данных и аналитике.

Точно так же множество исследований пришли к выводу, что узким местом для разработки ИИ являются высококачественные данные в масштабе, и синтетические данные являются одним из решений.

Следовательно, сейчас как никогда важно устранить входные барьеры для разработчиков, специалистов по данным, компаний и академических исследователей в использовании синтетических данных.

3. Как вы создаете синтетические данные?

Для создания синтетических данных на основе варианта использования можно использовать несколько методов.

В случаях, когда нет доступных фактических данных, но когда специалисты по данным всесторонне понимают природу данных, будет работать синтез на основе правил и генерация данных на основе известных распределений. В обоих методах может быть сгенерирована случайная выборка, соответствующая правилам или распределениям.

Когда фактические данные доступны, генеративные модели, в частности, вариационные автоэнкодеры (VAE) и генеративно-состязательные сети (GAN), привлекли большое внимание в этой области.

GAN — мощный инструмент для создания искусственных наборов данных, неотличимых от реальных. В GAN, в то время как сеть генератора берет случайные выборочные данные для создания синтетического набора данных, дискриминатор оценивает их по сравнению с реальным набором данных. Этот процесс обучения модели происходит итеративно.

VAE — это неконтролируемый алгоритм, в котором сеть кодировщика изучает и сжимает исходный набор данных, а сеть декодера затем генерирует синтетические данные из сжатия.

Пока я пишу это, синтетические данные являются активной темой исследований в области ИИ, и различные новые методы быстро развиваются.

4. Откуда вы знаете, что созданные вами синтетические данные похожи на исходные данные?

Крайне важно сравнивать сгенерированные синтетические данные с исходными данными по трем ключевым критериям: полезность, достоверность и конфиденциальность.

Полезность указывает на производительность синтетических данных в нижестоящих приложениях по сравнению с исходным набором данных, точность измеряет, насколько хорошо синтетические данные статистически соответствуют исходным данным, а конфиденциальность указывает уровень конфиденциальности синтетических данных.

В то время как исследовательские статистические сравнения, оценки корреляции и оценки сходства гистограмм могут помочь понять достоверность, оценка важности признаков и оценка прогнозирования, когда вы обучаетесь на синтетических данных и тестируете на реальных данных, могут помочь оценить полезность данных. Мы можем оценить конфиденциальность с помощью оценки точного совпадения, оценки конфиденциальности соседей и оценки членства.

Эти метрики, как правило, автоматизируются при синтезе отчета. Вот реализация с примерами некоторых стандартных метрик оценки для синтетических данных. Основываясь на результатах, мы можем регенерировать его с другими параметрами, пока мы не будем удовлетворены качеством сгенерированных данных.

Однако придется пойти на определенные компромиссы, потому что невозможно получить наилучшие возможные результаты по каждому из трех тестов из-за обратной зависимости между ними (подробнее об этом позже).

5. Как созданные синтетические данные справляются с предвзятостью?

Смещение может быть введено в данные во время: сбора данных, обработки данных или построения модели.

Предвзятость при сборе данных трудно устранить, потому что весь процесс сбора должен быть переработан, а не исправлен при синтезе данных. По определению, синтетические данные не добавят и не привнесут новую предвзятость в существующие исходные данные.

При достаточном знании предметной области погрешность можно устранить, в то время как синтез данных и процесс оценки генерации синтетических данных держат эту погрешность под контролем.

6. Дорого ли создавать синтетические данные? Каковы затраты?

Это субъективный вопрос, и ответ зависит от вашего варианта использования и масштаба данных, которые вам нужны для этого.

Доступно несколько репозиториев с открытым исходным кодом; следовательно, единственная стоимость будет заключаться в приобретении исходного набора данных и стоимости вычислительных ресурсов. В качестве альтернативы вы также можете обратиться к компаниям, которые специализируются на синтетических данных с вашими требованиями, если они вам понадобятся для готовых бизнес-применений.

7. Можем ли мы продавать и монетизировать синтетические данные?

В общем, синтетические данные не собираются из реального мира, а значит, скорее всего, их можно монетизировать.

Тем не менее, это может зависеть от варианта использования.

8. Насколько искусственные данные отличаются от других технологий сохранения конфиденциальности?

Возможно, вы слышали о технологиях сохранения конфиденциальности, таких как гомоморфное шифрование, федеративное обучение и дифференциальная конфиденциальность.

Федеративное обучение позволяет проводить обучение на периферии, отправляя модели в данные, в то время как данные никогда не покидают источник. Гомоморфное шифрование позволяет проводить вычисления с зашифрованными данными.

Эти алгоритмы имеют различные варианты использования, например, когда речь идет о частной аналитике больших данных — дифференциальная конфиденциальность — это то, что нужно.

Сгенерированные синтетические данные могут быть в разной степени конфиденциальными и лучше всего подходят, когда специалистам по данным требуются данные с той же степенью детализации, что и исходные данные, для общих задач науки о данных.

9. Каковы ограничения синтетических данных?

Хотя мы можем сгенерировать их аналогично реальным данным, синтетические данные имеют определенные ограничения.

Одним из наиболее важных ограничений является компромисс между конфиденциальностью и полезностью. Надежная генерация данных с сохранением конфиденциальности приводит к необходимому компромиссу полезности синтетических данных в пользу полученной конфиденциальности. Таким образом, конфиденциальность и полезность находятся в обратной зависимости.

Задача состоит в том, чтобы найти оптимальный баланс между полезностью и конфиденциальностью для каждого конкретного случая использования.

Кроме того, в данных могут существовать некоторые жесткие ограничения. Например, стоимость продаж всегда равна произведению цены за единицу и количества проданного товара. Однако эти специфические для предметной области ограничения могут быть скомпрометированы, если приоритет отдается полезности и конфиденциальности процесса синтеза.

10. Как начать работу с синтетическими данными?

Я рад, что у вас есть этот вопрос. Лучший способ начать работу — присоединиться к бесплатному сообществу с открытым исходным кодом, которое работает над такими проектами, как Сообщество ИИ, ориентированное на данные, потому что вы не будете одиноки, выясняя синтетические данные.

Если у вас есть некоторый технический опыт, вы можете заняться репозиториями с открытым исходным кодом (например, ydata-synthetic, так как я внес здесь свой вклад). Как правило, в этих библиотеках есть множество примеров, с которых можно начать.

Если вы специалист по данным, вы также можете начать создавать синтетические данные с нуля, используя такие алгоритмы, как генеративно-состязательные сети. Вот подробное руководство от Фабианы Клементе о том, как это сделать.

Я надеюсь, что эта статья ответила на большинство ваших животрепещущих вопросов о синтетических данных. Несмотря на то, что я пытаюсь ответить как можно больше, у вас, вероятно, остались вопросы.

Это развивающаяся тема, поэтому она должна быть продвинутой, но объяснимой.

Поэтому, пожалуйста, не стесняйтесь. Задавайте свои вопросы в разделе ответов или присоединяйтесь к Сообществу Data-Centric AI Community и задавайте их напрямую экспертам.

В любом случае, я буду более чем счастлив ответить на вопросы и расширить эту статью. Приятного обучения!