Вопросы по теме 'apache-beam-io'

Сведения о конвейере потока данных для источника/приемников BigQuery не отображаются
В соответствии с этим объявление команды Google Dataflow, мы должны иметь возможность видеть детали наших источников и приемников BigQuery в консоли, если мы используем SDK 1.6. Однако, хотя новые «Параметры конвейера» действительно отображаются,...
98 просмотров

Обнаружено исключение NullPointerException при записи в BigTable с использованием sdk потока данных Apache Beam
Я использую Apache's Beam версию sdk 0.2.0-incubating-SNAPSHOT и пытаюсь перенести данные в bigtable с помощью Dataflow runner. К сожалению, я получаю NullPointerException при выполнении конвейера потока данных, в котором я использую...
320 просмотров

Использование MySQL в качестве источника ввода и запись в Google BigQuery
У меня есть задача Apache Beam, которая считывает данные из источника MySQL с помощью JDBC, и предполагается, что данные записываются в таблицу BigQuery в том виде, в каком они есть. На данный момент не выполняется преобразование, которое произойдет...
2132 просмотров

Подтвердить сообщение Google Pub / Sub на Apache Beam
Я пытаюсь читать из pub / sub с помощью следующего кода Read<String> pubsub =...
1451 просмотров

Запись неограниченной коллекции в GCS
Я видел много вопросов по той же теме. Но у меня все еще проблема с записью в GCS. Я читаю тему из pubsub и пытаюсь перенести это в GCS. Я сослался на эту ссылку . Но не удалось найти IOChannelUtils в последних пакетах лучей....
3933 просмотров

Выполнение программы Apache Beam без использования Maven
Я хочу запустить простой пример Beam Program с помощью Apache Spark runner. 1) Мне удалось успешно скомпилировать программу на моем локальном компьютере. 2) Я хочу отправить файл JAR в поле контроля качества, где не установлен Maven. 3) Я вижу...
100 просмотров
schedule 30.12.2022

API Java облачного потока данных Google не читает тему pubsub другого проекта
У меня есть только одна тема, созданная в продакшн-проекте. Я хочу запустить задание потока данных в среде разработки, которая должна использовать рабочую тему pubsub. Когда я отправляю свое задание потока данных в проект разработчика, оно не...
593 просмотров

Чтение и запись сериализованного protobuf в Beam
Я полагаю, должно быть легко записать PCollection сериализованных сообщений protobuf в текстовые файлы и прочитать их обратно. Но после нескольких попыток мне это не удалось. Был бы признателен, если у кого-нибудь есть комментарий. // definition...
1894 просмотров

Объект 'module' не имеет атрибута 'WriteToBigQuery' при запуске Apache Beam на Google App Engine Flex
У меня есть Google App Engine, запускающий конвейер Cloud DataFlow. Этот конвейер должен записать окончательную коллекцию PCollection в Google BigQuery, но я не могу найти способ установить правильную зависимость apache_beam.io. Я использую Apache...
801 просмотров

Запись в динамическое место назначения в облачное хранилище в потоке данных в Python
Я пытался читать из большого файла в облачном хранилище и сегментировать их в соответствии с заданным полем. Я планирую прочитать | Map(лямбда x: (x[ключевое поле], x)) | группа по ключу | Запись в файл с именем ключевого поля. Однако я не...
971 просмотров

Apache Beam - проекция чтения BigQueryIO
У меня есть конвейер потока данных, который читает из таблицы BigQuery. Однако при чтении данных нет другого выхода, кроме как прочитать все записи с read (SerializableFunction) или readTableRows ( ) методы. Мне было интересно, при...
223 просмотров

SDK Apache Beam Python с исходным кодом Pub / Sub зависает во время выполнения
Я пишу программу на Apache Beam с использованием Python SDK для чтения из Pub / Sub содержимого файла JSON и выполнения некоторой обработки полученной строки. Это часть программы, в которой я извлекаю содержимое из Pub / Sub и выполняю обработку:...
899 просмотров

Как сделать ReadAllFromText не конвейером Block Beam?
Я хотел бы реализовать очень простой конвейер луча: read google storage links to text files from PubSub topic->read each text line by line->write to BigQuery. Apache Beam имеет предварительно реализованный PTransform для каждого...
469 просмотров

Чтение из PubSubIO: fromTopic vs fromSubscription
Я видел в каком-то примере код, который читается прямо из темы? PubsubIO.readStrings().fromTopic(fullTopic)) Есть ли различия между этим и PubsubIO.readStrings().fromSubscription(fullTopic)) (У меня всегда было впечатление, что у вас...
551 просмотров

Как указать insertId при отправке вставки в BigQuery с помощью Apache Beam
BigQuery поддерживает дедупликацию при потоковой вставке. Как я могу использовать эту функцию с помощью Apache Beam? https://cloud.google.com/bigquery/streaming-data-into-bigquery#dataconsistency Чтобы обеспечить согласованность данных,...
2621 просмотров

Как выполнить пакетную потоковую вставку в BigQuery из задания Beam
Я пишу в BigQuery для работы с лучом из неограниченного источника. Я использую ПОТОКОВЫЕ ВСТАВКИ в качестве метода. Я смотрел, как регулировать количество строк в BigQuery на основе рекомендаций в...
763 просмотров

TypeError: __init__() получил неожиданный аргумент ключевого слова «response_encoding» при записи в gcs с использованием луча python версии 2.11.0
когда я пытаюсь прочитать данные из gcs, а затем просто записываю их обратно в другое ведро gcs с помощью луча 2.11.0 python sdk, это дает мне ошибку «TypeError: init () получил неожиданное Аргумент ключевого слова 'response_encoding'" Тот же код...
218 просмотров

Обработка исключений в конвейерах Apache Beam при записи в базу данных с использованием Java
При записи простых записей в таблицу в Postgres (может быть любой db) в конце конвейера, некоторые из потенциальных записей нарушают ограничения уникальности и вызывают исключение. Насколько я могу судить, нет прямого способа справиться с этим изящно...
1016 просмотров
schedule 31.01.2023

Назначение GenericRecord метки времени из внутреннего объекта
Обработка потоковых событий и запись файлов в почасовые сегменты представляет собой проблему из-за окон, поскольку некоторые события из входящего часа могут переходить в предыдущие и тому подобное. Я копался в Apache Beam и его триггерах, но я изо...
168 просмотров

Apache Beam Java SDK SparkRunner ошибка записи в паркет
Я использую Apache Beam с Java. Я пытаюсь прочитать файл csv и записать его в паркетный формат с помощью SparkRunner в предварительно развернутом окружении Spark, используя локальный режим. С DirectRunner все работало нормально, но SparkRunner...
599 просмотров
schedule 22.01.2023