Публикации по теме 'google-cloud-dataflow'


Наши выводы и сессии для повторного просмотра с Beam Summit 2022
На прошлой неделе на youtube-канал Apache Beam были загружены все записанные сессии с саммита Beam, состоявшегося в июле 2022 года, на котором наш инженер машинного обучения Константин также выступил с докладом. Там много интересного, может быть, даже слишком много! Итак, мы постараемся облегчить вашу жизнь, поделившись нашими общими мыслями и выводами о саммите, а также почему мы взволнованы будущим Beam. Кроме того, мы поделимся некоторыми интересными сессиями, которые, по нашему мнению,..

Вопросы по теме 'google-cloud-dataflow'

Простой способ анализа данных на основе общего ключа
Каков был бы самый простой способ обработать все записи, которые были сопоставлены с определенным ключом, и вывести несколько записей для этих данных. Например (синтетический пример), предполагая, что мой ключ — это дата, а значения — внутридневные...
264 просмотров
schedule 11.01.2023

Чтение из сжатых файлов в Dataflow
Есть ли способ (или какой-либо хак) для чтения входных данных из сжатых файлов? Мой ввод состоит из нескольких сотен файлов, сжатых с помощью gzip, и их распаковка несколько утомительна. Спасибо, Геннадий
2549 просмотров
schedule 26.06.2022

Безопасный поток SerializableFunction в облачном потоке данных
Я реализую интерфейс SerializableFunction и хочу повторно использовать некоторые дорогостоящие вспомогательные объекты, которые я создаю в конструкторе. Когда этот класс используется в задании потока данных, создается ли/клонируется новый экземпляр...
155 просмотров
schedule 21.12.2023

Как извлечь содержимое из PCollection в Cloud Dataflow?
Просто хотите знать, как извлечь вещи из PCollection? Скажем, я применил Count.Globally, поэтому в результирующей коллекции PCollection есть одно число, но как я могу извлечь его как длинное значение? Спасибо.
3219 просмотров
schedule 16.11.2022

Как исправить предупреждение maven о том, что группа потоков все еще работает при использовании GCSUtil для записи файлов?
Я написал простую программу . для записи текстового файла в GCS с помощью GCSUtil Я запускаю программу, используя mvn:exec mvn exec:java -Dexec.mainClass="dataflow.GCSRunningThreads" -Dexec.args=--output=gs://my-bucket/tmp/hello_world...
3141 просмотров
schedule 23.02.2024

Как исправить Dataflow, который не может сериализовать мой DoFn?
Когда я запускаю свой конвейер потока данных, я получаю приведенное ниже исключение, жалующееся на то, что мой DoFn не может быть сериализован. Как я могу это исправить? Вот трассировка стека: Caused by: java.lang.IllegalArgumentException:...
12375 просмотров
schedule 12.09.2022

Можно ли запускать задания Hadoop MR с помощью потока данных Google?
Можно ли запускать задания Hadoop MR с помощью службы Google Dataflow? У меня есть несколько заданий Hadoop MR, которые я хотел бы иметь возможность запускать службу Dataflow. Я хотел бы иметь возможность воспользоваться преимуществами службы...
108 просмотров
schedule 23.06.2022

Можно ли запустить Cloud Dataflow с пользовательскими пакетами?
Можно ли предоставить воркеры Dataflow с пользовательскими пакетами? Я хотел бы раскошелиться на двоичный файл, упакованный в Debian, изнутри вычисления. Изменить: чтобы было ясно, конфигурация пакета достаточно сложна, поэтому невозможно просто...
688 просмотров
schedule 12.02.2023

Делает ли DoFn.Context.output() копию объекта?
Делает ли DoFn.Context.output() копию объекта? Безопасно ли повторно использовать объект после вызова вывода? Например, будет ли следующий код выводить 10 записей с одинаковой отметкой времени или 10 записей с разными отметками времени? public...
136 просмотров
schedule 02.04.2023

Ошибка неверного запроса при запуске примера с параметром --runner=BlockingDataflowPipelineRunner
Я новичок в Google Compute Engine, так что это, вероятно, неудача нуба. Я пытаюсь запустить пример WordCount из проекта GitHub . DirectPipelineRunner работает нормально, но когда я пытаюсь использовать BlockingDataflowPipelineRunner, я получаю...
106 просмотров
schedule 19.02.2023

Как в Cloud Dataflow проверить контейнер Docker, в котором работает рабочий процесс?
Как получить доступ оболочки к контейнеру Docker, в котором работает рабочий поток данных? Как упоминалось в комментариях к этому вопросу , мы можем установить teardownPolicy=TEARDOWN_NEVER , чтобы сохранить рабочую виртуальную машину после...
405 просмотров
schedule 22.10.2023

Как узнать, сколько виртуальных машин настроено для выполнения моего задания потока данных?
Я использую службу потока данных для запуска своей работы по чтению данных из GCS и записи в таблицы BQ, задачи выполняются успешно, я хотел бы знать, как или где я могу найти информацию о том, сколько виртуальных машин Google настроил для моей...
149 просмотров
schedule 16.02.2023

Пропуск строк заголовков - возможно ли с Cloud DataFlow?
Я создал конвейер, который читает из файла в GCS, преобразует его и, наконец, записывает в таблицу BQ. Файл содержит строку заголовка (поля). Есть ли способ программно установить «количество пропущенных строк заголовка», как это можно сделать в BQ...
2119 просмотров
schedule 28.01.2023

Как выполнить объединение в потоке данных?
Я пытаюсь выполнить операцию объединения в потоке данных. Есть ли пример кода для объединения двух коллекций PCollections в потоке данных?
1570 просмотров
schedule 13.05.2023

Поддерживают ли «боковые входы» в Cloud Dataflow чтение из представлений BigQuery?
Пытался указать боковой ввод на представление BigQuery, а не непосредственно на таблицу BigQuery. Он не вызывает ошибки, а просто возвращает 0 строк. View отлично работает внутри BigQuery. Например, для представления, ссылающегося на таблицу...
643 просмотров

Обработка многострочных событий из текстового файла в Dataflow
Я пытаюсь создать конвейер потока данных для обработки текстового файла, который содержит события, охватывающие несколько строк. Класс Dataflow SDK TextIO предполагает, что каждая строка является новым событием. Мой план состоит в том, чтобы...
359 просмотров
schedule 26.08.2022

Ограничить количество результатов из шаблона входного файла Dataflow?
Обновлять: Мы видели эти ошибки класса 400: com.google.api.client.googleapis.json.GoogleJsonResponseException: 400 Bad Request { "code" : 400, "errors" : [ { "domain" : "global", "message" : "Request payload exceeds the allowable limit:...
282 просмотров
schedule 08.11.2022

Не удалось создать задание рабочего процесса, 401 Неавторизованный
Я тестировал задания потока данных, отправлял задание с локального сервера и создавал задания потока данных в облаке, это было успешно, теперь я пытаюсь настроить его в продукте, который находится на одном из GCE в облаке, я получил эту ошибку :...
323 просмотров
schedule 21.07.2022

Разделяйте данные, поступающие из CSV, чтобы я мог обрабатывать большие патчи, а не отдельные строки.
Я только начинаю работать с Google Data Flow. Я написал простой поток, который считывает CSV-файл из облачного хранилища. Один из шагов включает вызов веб-службы для обогащения результатов. Рассматриваемый веб-сервис работает намного лучше при...
1266 просмотров
schedule 04.06.2023

Строка BigQuery в потоке данных — getF() возвращает значение null
У нас есть Pipeline, который читает данные из таблицы BigQuery. Вызов метода getF() для TableRow должен вернуть List<TableCell> для этой строки. Но он возвращает null . Почему getF() возвращает null ? @Override public void...
450 просмотров
schedule 07.02.2023