Может ли Google Data Fusion производить такую ​​же очистку данных, как DataPrep?

Я хочу запустить модель машинного обучения с некоторыми данными. Перед обучением модели с этими данными мне нужно обработать ее, поэтому я читал несколько способов сделать это.

  1. Прежде всего создайте конвейер потока данных, чтобы загрузить его в Bigquery или Google Cloud Storage, а затем создайте конвейер данных с помощью Google Dataprep, чтобы очистить его.

  2. Другой способ, которым я могу это сделать, - это Data Fusion, который может создавать конвейеры данных проще, но я не знаю, и вот я сомневаюсь, Data Fusion предназначен только для создания конвейера, такого как Dataflow, а затем я должен использовать DataPrep, чтобы очистить данные, или если Data Fusion может очистить данные и подготовить их для использования в моей модели машинного обучения.

Если Data Fusion может очищать данные как DataPrep, когда мне следует использовать DataPrep?




Ответы (1)


Datafusion и Dataprep могут выполнять одно и то же. Однако их исполнение отличается.

  • Datafusion создает конвейер Spark и запускает его в кластере Dataproc
  • Dataprep создает конвейер Beam и запускает его в потоке данных

IMO, Datafusion больше предназначен для приема данных из одного источника в другой с небольшим преобразованием. Dataprep больше предназначен для подготовки данных (как следует из названия), очистки данных, создания нового столбца, разделения столбца. Dataprep также предоставляет данные, которые помогут вам в ваших рецептах.

Кроме того, Beam является частью расширенного Tensorflow, и ваш конвейер Data Engine станет более согласованным. если вы используете инструмент, совместимый с Beam

Вот почему я рекомендую Dataprep вместо Datafusion.

person guillaume blaquiere    schedule 01.10.2019