Вопросы по теме 'data-ingestion'

Настройка приемника elasticsearch apache-flume
Это мой первый раз здесь, так что извините, если я не пишу нормально, и извините за мой плохой английский. Я пытаюсь настроить приемники Apache Flume и Elasticsearch. Все ок, вроде работает нормально, но при запуске агента 2 предупреждения;...
4933 просмотров
schedule 24.08.2022

Невозможно загрузить файлы размером более 100 МБ в HDFS
Я столкнулся с действительно странной проблемой с моим кластером. Всякий раз, когда я пытаюсь загрузить в HDFS любой файл размером более 100 МБ (104857600 байт), происходит сбой со следующей ошибкой: Все узлы данных неисправны... Прерывание....
288 просмотров
schedule 22.11.2022

Гоблин - как получить публикацию из Facebook
Я некоторое время изучал Gobblin и в настоящее время испытываю трудности с использованием Gobblin для получения сообщений с Facebook. Я не смог найти ни одного примера подключения в Интернете или, возможно, я искал его неправильно. Я рассматриваю...
106 просмотров

Nifi - усечение и загрузка в таблицу mysql db
Я читаю файлы CSV с сайта SFTP и загружаю их в mysql db с помощью Nifi. У меня есть следующий рабочий процесс, который, похоже, работает нормально. Мне просто нужна помощь в выяснении того, как обрезать таблицу, прежде чем я начну с загрузкой...
1770 просмотров

Многопроцессорный цикл Python
Я надеюсь использовать multiprocessing для ускорения медленного цикла. Однако из того, что я видел в примерах многопроцессорности, я не уверен, что такая реализация является хорошей практикой, осуществимой или возможной. Цикл обычно состоит из...
6878 просмотров

Поиск Apache Nifi HBASE
Я новичок в Apache Nifi Мы создаем поток Nifi, который потребляет данные json от kafka, и результаты отправляются в другую тему kafka после обогащения. Однако поиск HBase не возвращает значение ключа. Вместо этого он возвращает пару...
483 просмотров

Не удалось обновить репозиторий NiFi FlowFile
Я использую Apache NiFi для приема и предварительной обработки некоторых файлов CSV, но при длительной работе всегда происходит сбой. Ошибка всегда одна и та же: FlowFile Repository failed to update При поиске в журналах я всегда вижу эту...
6328 просмотров
schedule 27.05.2022

Как настроить Apache Flume для удаления файлов, игнорируемых свойством ignorePattern
У меня есть данные, поступающие в spooldir, и я собираю их с помощью Flume и перенаправляю дальше для некоторой обработки. Есть некоторые файлы, которые не требуются, поэтому я использую свойство igonorePattern в флюме, чтобы их не подбирали. Но...
413 просмотров
schedule 27.10.2022

Как обрезать поля при загрузке в фрейм данных в искре?
Недавно мы получили файл для загрузки, файл в формате PSV, однако все поля заполнены дополнительными символами $~$ слева и справа, поэтому весь PSV выглядит следующим образом: $~$Поле1$~$|$~$Поле2$~$|$~$Поле3$~$...
600 просмотров
schedule 12.05.2023

Как добавиться в пакет zipline
У меня есть торговый алгоритм, который я тестирую на zipline. Я успешно получил пакет обыкновенных акций США из CSV-файла. Двигаясь вперед, я хотел бы непрерывно тестировать его на исторических данных в конце каждого торгового дня. Поэтому я хотел...
240 просмотров
schedule 30.03.2023

Как обрабатывать несколько разных файлов разными способами с помощью Spring Batch
Фон/контекст Я вижу почти бесчисленное количество примеров того, как обрабатывать несколько файлов с помощью Spring Batch, но каждый из них имеет один объект, в который обрабатываются все файлы. Таким образом, многие файлы, содержащие совместимые...
965 просмотров
schedule 06.09.2022

Получение многозначного измерения из строки с разделителями-запятыми
У меня есть данные о событиях от Kafka со следующей структурой, которые я хочу принять в Druid { "event": "some_event", "id": "1", "parameters": { "campaigns": "campaign1, campaign2", "other_stuff": "important_info" } } В...
747 просмотров
schedule 09.05.2024

Apache Nifi для перемещения файлов в новую папку hdfs для файлов младше текущей даты
Я создаю сквозной поток для потребления данных в HDFS, используя Consume Kafka для файлов Json, полученных через поток событий tealium. В настоящее время я использовал Consume Kafka -> Evaluate Json Path -> Jolttransform Json -> Merge...
217 просмотров

Где хранить объекты общего кэша в Cloud Run?
Я создаю конвейер приема данных с помощью Cloud Run. My Cloud Run API вызывается каждый раз, когда файл помещается в корзину GCS через Pub Sub. Мне нужно загрузить некоторые метаданные, которые содержат текст для данных, которые я принимаю. Эти...
1691 просмотров

Ввод данных из нескольких баз данных в единую коллекцию solr
Чтобы получить данные из одной базы данных, я обычно реализую процесс для их загрузки через DataImportHandler. Его довольно легко настроить, он кажется очень эффективным с точки зрения времени загрузки, и он работает очень хорошо для меня. Его легко...
68 просмотров
schedule 05.11.2022

Показатели работы Gobblin не публикуют данные в InfluxDB
Я настроил файл .pull для создания и отправки метрик в InfluxDb для заданий источника, экстрактора и конвертера. Я попробовал на примере работы википедии. metrics.enabled=true metrics.report.interval=30000...
28 просмотров
schedule 29.05.2022

Коннектор Kafka для ArangoDB
Можем ли мы использовать Apache Kafka для подключения к ArangoDB? Я вижу поддержку DirectMQ для ArangoDB, но если я хочу использовать Kafka для получения данных из различных источников и сохранения их в ArangoDB
98 просмотров

Агрегация MongoDB - оператор для чтения в документах
Поскольку Mongo поддерживает только одно $text поле на конвейер агрегации (внутри первого $match этапа), это означает, что вы не можете выполнить логическое И, поскольку вы не можете $and результаты нескольких $text поисков. // Fails due...
186 просмотров