В соавторстве с Gabriel Machado

Начнем с жизненного цикла стартапа, управляемого данными.

  • Продукт создан
  • Пакетная обработка настроена на получение MoM(Месяц за месяцем), YoY (Год за годом), DoD (День за днем) ) и другие данные для инициализации роста.
  • Постепенно мы видим потребность в получении определенной информации почти в режиме реального времени (NRT). Мы настроили некоторые потоковые задания.
  • К настоящему времени мы собрали достаточно данных для начала прогнозного анализа.

Итак, у нас есть три важных шага: Пакетная обработка, в режиме, близком к реальному времени, прогностический анализ.

Все 3 шага имеют уникальную ценность, которую они привносят в анализ данных.

Теперь давайте сосредоточимся на прогнозной аналитике данных.

Как следует из названия, прогнозная аналитика данных позволяет прогнозировать конкретные результаты, используя существующие данные.

В примере жизненного цикла стартапа, о котором мы говорили выше, прогнозная аналитика данных находится на последнем этапе. Почему?

Если собранные данные очищены, обработаны и сохранены в надлежащем формате для данного продукта, результаты прогнозной аналитики могут быть огромными.

Теперь мы можем спросить, можем ли мы сгенерировать некоторые синтетические данные о нашем продукте, сопоставимые данные, собранные с нашим исходным продуктом. Можем ли мы внедрить прогнозную аналитику данных намного раньше в жизненный цикл аналитики данных?

Ответ - да! Вот что такое синтетические данные.

По данным ydata-synthetic

Синтетические данные — это искусственно сгенерированные данные, которые не собираются из реальных событий. Он воспроизводит статистические компоненты реальных данных без какой-либо информации, позволяющей установить личность, что обеспечивает конфиденциальность отдельных лиц.

Потенциал наличия таких данных заранее, безусловно, помогает улучшить рост любого данного продукта, потому что у вас есть данные, точно соответствующие реальному миру.

Являются ли синтетические данные такими же, как фиктивные данные?

Это распространенный вопрос, который я часто получаю, когда говорю об синтетических данных.

Нельзя использовать для этого генератор случайных данных?

Важно отметить, что синтетические данные создаются искусственно. Поэтому качество синтетических данных зависит от того, какая модель ML/AI используется. used определяет, насколько хороши синтетические данные.

При адаптации синтетических данных мы проходим пробный этап, чтобы настроить модели машинного обучения в соответствии с нашими потребностями. Например, допустим, мы запускаем акцию на этапе 1, чтобы понять пропущенную дельту. Затем, позже, мы можем настроить машинное обучение и получить более качественные синтетические данные.

Эта итерация выполняется быстрее и помогает нам в развитии и эффективном проектировании продуктов на основе данных.

Этих причин самих по себе достаточно, чтобы увидеть потенциальный рост синтетических данных.

И как мы можем генерировать синтетические данные?

Посетите этот потрясающий репозиторий git ydata-synthetic и веб-сайт ydata.ai.

В соавторстве с Gabriel Machado