Вопросы по теме 'apache-beam-io'
Сведения о конвейере потока данных для источника/приемников BigQuery не отображаются
В соответствии с этим объявление команды Google Dataflow, мы должны иметь возможность видеть детали наших источников и приемников BigQuery в консоли, если мы используем SDK 1.6.
Однако, хотя новые «Параметры конвейера» действительно отображаются,...
98 просмотров
schedule
05.12.2022
Обнаружено исключение NullPointerException при записи в BigTable с использованием sdk потока данных Apache Beam
Я использую Apache's Beam версию sdk 0.2.0-incubating-SNAPSHOT
и пытаюсь перенести данные в bigtable с помощью Dataflow runner. К сожалению, я получаю NullPointerException при выполнении конвейера потока данных, в котором я использую...
320 просмотров
schedule
02.09.2022
Использование MySQL в качестве источника ввода и запись в Google BigQuery
У меня есть задача Apache Beam, которая считывает данные из источника MySQL с помощью JDBC, и предполагается, что данные записываются в таблицу BigQuery в том виде, в каком они есть. На данный момент не выполняется преобразование, которое произойдет...
2132 просмотров
schedule
27.07.2022
Подтвердить сообщение Google Pub / Sub на Apache Beam
Я пытаюсь читать из pub / sub с помощью следующего кода
Read<String> pubsub =...
1451 просмотров
schedule
03.03.2023
Запись неограниченной коллекции в GCS
Я видел много вопросов по той же теме. Но у меня все еще проблема с записью в GCS. Я читаю тему из pubsub и пытаюсь перенести это в GCS. Я сослался на эту ссылку . Но не удалось найти IOChannelUtils в последних пакетах лучей....
3933 просмотров
schedule
04.07.2022
Выполнение программы Apache Beam без использования Maven
Я хочу запустить простой пример Beam Program с помощью Apache Spark runner. 1) Мне удалось успешно скомпилировать программу на моем локальном компьютере. 2) Я хочу отправить файл JAR в поле контроля качества, где не установлен Maven. 3) Я вижу...
100 просмотров
schedule
30.12.2022
API Java облачного потока данных Google не читает тему pubsub другого проекта
У меня есть только одна тема, созданная в продакшн-проекте. Я хочу запустить задание потока данных в среде разработки, которая должна использовать рабочую тему pubsub. Когда я отправляю свое задание потока данных в проект разработчика, оно не...
593 просмотров
schedule
27.07.2022
Чтение и запись сериализованного protobuf в Beam
Я полагаю, должно быть легко записать PCollection сериализованных сообщений protobuf в текстовые файлы и прочитать их обратно. Но после нескольких попыток мне это не удалось. Был бы признателен, если у кого-нибудь есть комментарий.
// definition...
1894 просмотров
schedule
17.07.2022
Объект 'module' не имеет атрибута 'WriteToBigQuery' при запуске Apache Beam на Google App Engine Flex
У меня есть Google App Engine, запускающий конвейер Cloud DataFlow. Этот конвейер должен записать окончательную коллекцию PCollection в Google BigQuery, но я не могу найти способ установить правильную зависимость apache_beam.io.
Я использую Apache...
801 просмотров
schedule
25.09.2022
Запись в динамическое место назначения в облачное хранилище в потоке данных в Python
Я пытался читать из большого файла в облачном хранилище и сегментировать их в соответствии с заданным полем.
Я планирую прочитать | Map(лямбда x: (x[ключевое поле], x)) | группа по ключу | Запись в файл с именем ключевого поля.
Однако я не...
971 просмотров
schedule
25.07.2023
Apache Beam - проекция чтения BigQueryIO
У меня есть конвейер потока данных, который читает из таблицы BigQuery. Однако при чтении данных нет другого выхода, кроме как прочитать все записи с read (SerializableFunction) или readTableRows ( ) методы. Мне было интересно, при...
223 просмотров
schedule
20.05.2022
SDK Apache Beam Python с исходным кодом Pub / Sub зависает во время выполнения
Я пишу программу на Apache Beam с использованием Python SDK для чтения из Pub / Sub содержимого файла JSON и выполнения некоторой обработки полученной строки. Это часть программы, в которой я извлекаю содержимое из Pub / Sub и выполняю обработку:...
899 просмотров
schedule
05.05.2023
Как сделать ReadAllFromText не конвейером Block Beam?
Я хотел бы реализовать очень простой конвейер луча:
read google storage links to text files from PubSub topic->read each text line by line->write to BigQuery.
Apache Beam имеет предварительно реализованный PTransform для каждого...
469 просмотров
schedule
06.11.2022
Чтение из PubSubIO: fromTopic vs fromSubscription
Я видел в каком-то примере код, который читается прямо из темы?
PubsubIO.readStrings().fromTopic(fullTopic))
Есть ли различия между этим и
PubsubIO.readStrings().fromSubscription(fullTopic))
(У меня всегда было впечатление, что у вас...
551 просмотров
schedule
24.07.2023
Как указать insertId при отправке вставки в BigQuery с помощью Apache Beam
BigQuery поддерживает дедупликацию при потоковой вставке. Как я могу использовать эту функцию с помощью Apache Beam?
https://cloud.google.com/bigquery/streaming-data-into-bigquery#dataconsistency
Чтобы обеспечить согласованность данных,...
2621 просмотров
schedule
15.04.2023
Как выполнить пакетную потоковую вставку в BigQuery из задания Beam
Я пишу в BigQuery для работы с лучом из неограниченного источника. Я использую ПОТОКОВЫЕ ВСТАВКИ в качестве метода. Я смотрел, как регулировать количество строк в BigQuery на основе рекомендаций в...
763 просмотров
schedule
16.08.2022
TypeError: __init__() получил неожиданный аргумент ключевого слова «response_encoding» при записи в gcs с использованием луча python версии 2.11.0
когда я пытаюсь прочитать данные из gcs, а затем просто записываю их обратно в другое ведро gcs с помощью луча 2.11.0 python sdk, это дает мне ошибку «TypeError: init () получил неожиданное Аргумент ключевого слова 'response_encoding'"
Тот же код...
218 просмотров
schedule
07.03.2023
Обработка исключений в конвейерах Apache Beam при записи в базу данных с использованием Java
При записи простых записей в таблицу в Postgres (может быть любой db) в конце конвейера, некоторые из потенциальных записей нарушают ограничения уникальности и вызывают исключение. Насколько я могу судить, нет прямого способа справиться с этим изящно...
1016 просмотров
schedule
31.01.2023
Назначение GenericRecord метки времени из внутреннего объекта
Обработка потоковых событий и запись файлов в почасовые сегменты представляет собой проблему из-за окон, поскольку некоторые события из входящего часа могут переходить в предыдущие и тому подобное.
Я копался в Apache Beam и его триггерах, но я изо...
168 просмотров
schedule
02.10.2022
Apache Beam Java SDK SparkRunner ошибка записи в паркет
Я использую Apache Beam с Java. Я пытаюсь прочитать файл csv и записать его в паркетный формат с помощью SparkRunner в предварительно развернутом окружении Spark, используя локальный режим. С DirectRunner все работало нормально, но SparkRunner...
599 просмотров
schedule
22.01.2023