Публикации по тегам data-ingestion [data-ingestion, flume, elasticsearch, hadoop, hdfs]

Вопросы по теме 'data-ingestion'

Настройка приемника elasticsearch apache-flume

Это мой первый раз здесь, так что извините, если я не пишу нормально, и извините за мой плохой английский. Я пытаюсь настроить приемники Apache Flume и Elasticsearch. Все ок, вроде работает нормально, но при запуске агента 2 предупреждения;...

4933 просмотров

data-ingestion flume elasticsearch

24.08.2022

Невозможно загрузить файлы размером более 100 МБ в HDFS

Я столкнулся с действительно странной проблемой с моим кластером. Всякий раз, когда я пытаюсь загрузить в HDFS любой файл размером более 100 МБ (104857600 байт), происходит сбой со следующей ошибкой: Все узлы данных неисправны... Прерывание....

288 просмотров

hadoop hdfs data-ingestion mapreduce

22.11.2022

Гоблин - как получить публикацию из Facebook

Я некоторое время изучал Gobblin и в настоящее время испытываю трудности с использованием Gobblin для получения сообщений с Facebook. Я не смог найти ни одного примера подключения в Интернете или, возможно, я искал его неправильно. Я рассматриваю...

106 просмотров

java facebook-graph-api data-ingestion restfb gobblin

23.03.2023

Nifi - усечение и загрузка в таблицу mysql db

Я читаю файлы CSV с сайта SFTP и загружаю их в mysql db с помощью Nifi. У меня есть следующий рабочий процесс, который, похоже, работает нормально. Мне просто нужна помощь в выяснении того, как обрезать таблицу, прежде чем я начну с загрузкой...

1770 просмотров

mysql data-ingestion load apache-nifi truncate

13.04.2023

Многопроцессорный цикл Python

Я надеюсь использовать multiprocessing для ускорения медленного цикла. Однако из того, что я видел в примерах многопроцессорности, я не уверен, что такая реализация является хорошей практикой, осуществимой или возможной. Цикл обычно состоит из...

6878 просмотров

python multithreading data-ingestion data-processing multiprocessing

02.05.2023

Поиск Apache Nifi HBASE

Я новичок в Apache Nifi Мы создаем поток Nifi, который потребляет данные json от kafka, и результаты отправляются в другую тему kafka после обогащения. Однако поиск HBase не возвращает значение ключа. Вместо этого он возвращает пару...

483 просмотров

streaming data-ingestion lookup apache-nifi hbase

10.10.2022

Не удалось обновить репозиторий NiFi FlowFile

Я использую Apache NiFi для приема и предварительной обработки некоторых файлов CSV, но при длительной работе всегда происходит сбой. Ошибка всегда одна и та же: FlowFile Repository failed to update При поиске в журналах я всегда вижу эту...

6328 просмотров

data-ingestion apache-nifi journal

27.05.2022

Как настроить Apache Flume для удаления файлов, игнорируемых свойством ignorePattern

У меня есть данные, поступающие в spooldir, и я собираю их с помощью Flume и перенаправляю дальше для некоторой обработки. Есть некоторые файлы, которые не требуются, поэтому я использую свойство igonorePattern в флюме, чтобы их не подбирали. Но...

413 просмотров

data-ingestion flume flume-ng

27.10.2022

Как обрезать поля при загрузке в фрейм данных в искре?

Недавно мы получили файл для загрузки, файл в формате PSV, однако все поля заполнены дополнительными символами $~$ слева и справа, поэтому весь PSV выглядит следующим образом: $~$Поле1$~$|$~$Поле2$~$|$~$Поле3$~$...

600 просмотров

csv apache-spark scala data-ingestion

12.05.2023

Как добавиться в пакет zipline

У меня есть торговый алгоритм, который я тестирую на zipline. Я успешно получил пакет обыкновенных акций США из CSV-файла. Двигаясь вперед, я хотел бы непрерывно тестировать его на исторических данных в конце каждого торгового дня. Поэтому я хотел...

240 просмотров

data-ingestion zipline

30.03.2023

Как обрабатывать несколько разных файлов разными способами с помощью Spring Batch

Фон/контекст Я вижу почти бесчисленное количество примеров того, как обрабатывать несколько файлов с помощью Spring Batch, но каждый из них имеет один объект, в который обрабатываются все файлы. Таким образом, многие файлы, содержащие совместимые...

965 просмотров

java data-ingestion spring-batch

06.09.2022

Получение многозначного измерения из строки с разделителями-запятыми

У меня есть данные о событиях от Kafka со следующей структурой, которые я хочу принять в Druid { "event": "some_event", "id": "1", "parameters": { "campaigns": "campaign1, campaign2", "other_stuff": "important_info" } } В...

747 просмотров

data-ingestion druid

09.05.2024

Apache Nifi для перемещения файлов в новую папку hdfs для файлов младше текущей даты

Я создаю сквозной поток для потребления данных в HDFS, используя Consume Kafka для файлов Json, полученных через поток событий tealium. В настоящее время я использовал Consume Kafka -> Evaluate Json Path -> Jolttransform Json -> Merge...

217 просмотров

data-ingestion apache-nifi cloudera-cdh hortonworks-data-platform mapr

15.04.2022

Где хранить объекты общего кэша в Cloud Run?

Я создаю конвейер приема данных с помощью Cloud Run. My Cloud Run API вызывается каждый раз, когда файл помещается в корзину GCS через Pub Sub. Мне нужно загрузить некоторые метаданные, которые содержат текст для данных, которые я принимаю. Эти...

1691 просмотров

shared-memory google-cloud-run google-cloud-memorystore data-ingestion

24.06.2022

Ввод данных из нескольких баз данных в единую коллекцию solr

Чтобы получить данные из одной базы данных, я обычно реализую процесс для их загрузки через DataImportHandler. Его довольно легко настроить, он кажется очень эффективным с точки зрения времени загрузки, и он работает очень хорошо для меня. Его легко...

68 просмотров

data-ingestion solr solrcloud

05.11.2022

Показатели работы Gobblin не публикуют данные в InfluxDB

Я настроил файл .pull для создания и отправки метрик в InfluxDb для заданий источника, экстрактора и конвертера. Я попробовал на примере работы википедии. metrics.enabled=true metrics.report.interval=30000...

28 просмотров

java data-ingestion influxdb gobblin

29.05.2022

Коннектор Kafka для ArangoDB

Можем ли мы использовать Apache Kafka для подключения к ArangoDB? Я вижу поддержку DirectMQ для ArangoDB, но если я хочу использовать Kafka для получения данных из различных источников и сохранения их в ArangoDB

98 просмотров

apache-kafka etl data-ingestion arangodb data-connections

22.12.2022

Агрегация MongoDB - оператор для чтения в документах

Поскольку Mongo поддерживает только одно $text поле на конвейер агрегации (внутри первого $match этапа), это означает, что вы не можете выполнить логическое И, поскольку вы не можете $and результаты нескольких $text поисков. // Fails due...

186 просмотров

mongodb mongoose nestjs data-ingestion aggregation

24.11.2022