Публикации по теме 'google-cloud-dataflow'
Наши выводы и сессии для повторного просмотра с Beam Summit 2022
На прошлой неделе на youtube-канал Apache Beam были загружены все записанные сессии с саммита Beam, состоявшегося в июле 2022 года, на котором наш инженер машинного обучения Константин также выступил с докладом. Там много интересного, может быть, даже слишком много! Итак, мы постараемся облегчить вашу жизнь, поделившись нашими общими мыслями и выводами о саммите, а также почему мы взволнованы будущим Beam. Кроме того, мы поделимся некоторыми интересными сессиями, которые, по нашему мнению,..
Вопросы по теме 'google-cloud-dataflow'
Простой способ анализа данных на основе общего ключа
Каков был бы самый простой способ обработать все записи, которые были сопоставлены с определенным ключом, и вывести несколько записей для этих данных.
Например (синтетический пример), предполагая, что мой ключ — это дата, а значения — внутридневные...
264 просмотров
schedule
11.01.2023
Чтение из сжатых файлов в Dataflow
Есть ли способ (или какой-либо хак) для чтения входных данных из сжатых файлов? Мой ввод состоит из нескольких сотен файлов, сжатых с помощью gzip, и их распаковка несколько утомительна.
Спасибо, Геннадий
2549 просмотров
schedule
26.06.2022
Безопасный поток SerializableFunction в облачном потоке данных
Я реализую интерфейс SerializableFunction и хочу повторно использовать некоторые дорогостоящие вспомогательные объекты, которые я создаю в конструкторе. Когда этот класс используется в задании потока данных, создается ли/клонируется новый экземпляр...
155 просмотров
schedule
21.12.2023
Как извлечь содержимое из PCollection в Cloud Dataflow?
Просто хотите знать, как извлечь вещи из PCollection? Скажем, я применил Count.Globally, поэтому в результирующей коллекции PCollection есть одно число, но как я могу извлечь его как длинное значение?
Спасибо.
3219 просмотров
schedule
16.11.2022
Как исправить предупреждение maven о том, что группа потоков все еще работает при использовании GCSUtil для записи файлов?
Я написал простую программу . для записи текстового файла в GCS с помощью GCSUtil
Я запускаю программу, используя mvn:exec
mvn exec:java -Dexec.mainClass="dataflow.GCSRunningThreads" -Dexec.args=--output=gs://my-bucket/tmp/hello_world...
3141 просмотров
schedule
23.02.2024
Как исправить Dataflow, который не может сериализовать мой DoFn?
Когда я запускаю свой конвейер потока данных, я получаю приведенное ниже исключение, жалующееся на то, что мой DoFn не может быть сериализован. Как я могу это исправить?
Вот трассировка стека:
Caused by: java.lang.IllegalArgumentException:...
12375 просмотров
schedule
12.09.2022
Можно ли запускать задания Hadoop MR с помощью потока данных Google?
Можно ли запускать задания Hadoop MR с помощью службы Google Dataflow?
У меня есть несколько заданий Hadoop MR, которые я хотел бы иметь возможность запускать службу Dataflow. Я хотел бы иметь возможность воспользоваться преимуществами службы...
108 просмотров
schedule
23.06.2022
Можно ли запустить Cloud Dataflow с пользовательскими пакетами?
Можно ли предоставить воркеры Dataflow с пользовательскими пакетами? Я хотел бы раскошелиться на двоичный файл, упакованный в Debian, изнутри вычисления.
Изменить: чтобы было ясно, конфигурация пакета достаточно сложна, поэтому невозможно просто...
688 просмотров
schedule
12.02.2023
Делает ли DoFn.Context.output() копию объекта?
Делает ли DoFn.Context.output() копию объекта?
Безопасно ли повторно использовать объект после вызова вывода? Например, будет ли следующий код выводить 10 записей с одинаковой отметкой времени или 10 записей с разными отметками времени?
public...
136 просмотров
schedule
02.04.2023
Ошибка неверного запроса при запуске примера с параметром --runner=BlockingDataflowPipelineRunner
Я новичок в Google Compute Engine, так что это, вероятно, неудача нуба.
Я пытаюсь запустить пример WordCount из проекта GitHub . DirectPipelineRunner работает нормально, но когда я пытаюсь использовать BlockingDataflowPipelineRunner, я получаю...
106 просмотров
schedule
19.02.2023
Как в Cloud Dataflow проверить контейнер Docker, в котором работает рабочий процесс?
Как получить доступ оболочки к контейнеру Docker, в котором работает рабочий поток данных?
Как упоминалось в комментариях к этому вопросу , мы можем установить teardownPolicy=TEARDOWN_NEVER , чтобы сохранить рабочую виртуальную машину после...
405 просмотров
schedule
22.10.2023
Как узнать, сколько виртуальных машин настроено для выполнения моего задания потока данных?
Я использую службу потока данных для запуска своей работы по чтению данных из GCS и записи в таблицы BQ, задачи выполняются успешно, я хотел бы знать, как или где я могу найти информацию о том, сколько виртуальных машин Google настроил для моей...
149 просмотров
schedule
16.02.2023
Пропуск строк заголовков - возможно ли с Cloud DataFlow?
Я создал конвейер, который читает из файла в GCS, преобразует его и, наконец, записывает в таблицу BQ. Файл содержит строку заголовка (поля).
Есть ли способ программно установить «количество пропущенных строк заголовка», как это можно сделать в BQ...
2119 просмотров
schedule
28.01.2023
Как выполнить объединение в потоке данных?
Я пытаюсь выполнить операцию объединения в потоке данных. Есть ли пример кода для объединения двух коллекций PCollections в потоке данных?
1570 просмотров
schedule
13.05.2023
Поддерживают ли «боковые входы» в Cloud Dataflow чтение из представлений BigQuery?
Пытался указать боковой ввод на представление BigQuery, а не непосредственно на таблицу BigQuery. Он не вызывает ошибки, а просто возвращает 0 строк. View отлично работает внутри BigQuery.
Например, для представления, ссылающегося на таблицу...
643 просмотров
schedule
10.06.2024
Обработка многострочных событий из текстового файла в Dataflow
Я пытаюсь создать конвейер потока данных для обработки текстового файла, который содержит события, охватывающие несколько строк. Класс Dataflow SDK TextIO предполагает, что каждая строка является новым событием.
Мой план состоит в том, чтобы...
359 просмотров
schedule
26.08.2022
Ограничить количество результатов из шаблона входного файла Dataflow?
Обновлять:
Мы видели эти ошибки класса 400:
com.google.api.client.googleapis.json.GoogleJsonResponseException: 400 Bad Request { "code" : 400, "errors" : [ { "domain" : "global", "message" : "Request payload exceeds the allowable limit:...
282 просмотров
schedule
08.11.2022
Не удалось создать задание рабочего процесса, 401 Неавторизованный
Я тестировал задания потока данных, отправлял задание с локального сервера и создавал задания потока данных в облаке, это было успешно, теперь я пытаюсь настроить его в продукте, который находится на одном из GCE в облаке, я получил эту ошибку :...
323 просмотров
schedule
21.07.2022
Разделяйте данные, поступающие из CSV, чтобы я мог обрабатывать большие патчи, а не отдельные строки.
Я только начинаю работать с Google Data Flow. Я написал простой поток, который считывает CSV-файл из облачного хранилища. Один из шагов включает вызов веб-службы для обогащения результатов. Рассматриваемый веб-сервис работает намного лучше при...
1266 просмотров
schedule
04.06.2023
Строка BigQuery в потоке данных — getF() возвращает значение null
У нас есть Pipeline, который читает данные из таблицы BigQuery. Вызов метода getF() для TableRow должен вернуть List<TableCell> для этой строки. Но он возвращает null .
Почему getF() возвращает null ?
@Override
public void...
450 просмотров
schedule
07.02.2023