Публикации по теме 'stream-processing'


Введение в потоковую обработку с использованием Apache Flink — Часть 1
Потоковая обработка — это парадигма программирования, которая рассматривает потоки данных или последовательности событий, основанных на времени, как основные входные и выходные данные вычислений, уделяя особое внимание непрерывным и безграничным данным. Системы потоковой обработки обрабатывают события сразу по их прибытии, часто небольшими инкрементными единицами, известными как события или записи. Эта возможность позволяет организациям быстро извлекать пользу из данных, что..

Введение в платформу обработки данных Scramjet
Новый движок для бессерверных приложений обработки данных Наш движок приложений данных Scramjet имеет собственный подход к развертыванию и запуску бессерверных приложений; в нескольких аспектах отличается от решений в таких областях, как программные шины, интеграционные платформы и предложения FaaS. В этой статье объясняется наш подход. Надеемся, вам будет интересно. Платформа обработки данных «3 в 1» Сердце нашего решения и его механизма обработки данных называется «Scramjet..

Потоковая передача с RaftLib
Так что мне стало скучно, и я создал потоковую среду выполнения для C++. Ну, не совсем, я построил один, чтобы написать диссертацию по математическому моделированию потоковых систем. Опять же, это тоже не совсем так. Я ненавижу состояние параллельного программирования в его нынешнем виде. Существуют десятки фреймворков: OpenMP, Pthreads, потоки Java, различные конструкции Python, потоки C++, OpenCL, CUDA и т. д. Я могу продолжать и продолжать, возможно, заполнив весь пост в блоге только..

Воспроизведение события с помощью Hazelcast Jet — Доминик Фокс
Введение: параллельная потоковая обработка Одно из заявленных намерений при разработке Java 8 Streams API заключалось в том, чтобы лучше использовать преимущества многоядерной вычислительной мощности современных компьютеров. Операции, которые могут выполняться с одним линейным потоком значений, также могут выполняться параллельно путем разделения этого потока на несколько подпотоков и объединения результатов обработки каждого подпотока по мере их появления. Например, предположим, что..

Ваш потоковый процессор перегружен?
Выбирая инструменты для наших систем, мы часто обращаем внимание на Google, который управляет впечатляющей системой, о масштабах и доступности которой мы можем только мечтать. Однако варианты использования Google отличаются от наших. Когда Озан Онай начинает свою статью Вы не Google », проекты, используемые крупными цифровыми компаниями, такими как Google, радуют глаз и выглядят впечатляюще для коллег-архитекторов, но у них более высокая совокупная стоимость владения и наполнены фишками..

Основы создания приложения Apache Flink
Понимание потоковой обработки с помощью Flink снизу вверх; облачные сервисы и другие платформы предоставляют решения для потоковой обработки (для некоторых Flink интегрирован под капотом). Если вы упускаете из виду основы, это руководство для вас. Наше монолитное решение не справляется с возросшей нагрузкой входящих данных, поэтому оно должно развиваться. Пришло время для следующего поколения нашего продукта. Потоковая обработка - это новая парадигма приема данных по сравнению с..

Вопросы по теме 'stream-processing'

Серверный ЦП и ГП с LAMP
Я пытаюсь узнать больше об оборудовании, которое можно использовать при запуске php-приложения или даже php-приложения, скомпилированного на С++, с использованием HipHop. Я хотел бы настроить микросервер и использовать графический процессор, чтобы...
9820 просмотров
schedule 22.08.2023

Как добавить объект в файл json с помощью JSR 353 (Java API для обработки JSON)
Используя JSR-353 ( https://jsonp.java.net/index.html ), я бы например, открыть файл json и добавить какой-либо объект в корневой массив, например: [{"foo":"bar"}] Я хотел бы с кодом примерно так: try(JsonGenerator writer =...
185 просмотров
schedule 06.11.2022

Локальное хранилище Apache Samza — граф OrientDB/Neo4J вместо хранилища KV
Apache Samza использует RocksDB в качестве механизма хранения для локального хранилища. Это позволяет обрабатывать потоки с отслеживанием состояния и вот очень хороший обзор . Мой вариант использования: У меня есть несколько потоков...
553 просмотров

Порт существующего php-приложения в потоковой передаче искры
У нас есть огромное существующее приложение на php, которое Принимает файл журнала Инициализирует всю базу данных, ресурсы хранилища в памяти Обрабатывает каждую строку Создает набор выходных файлов Вышеупомянутый процесс происходит...
540 просмотров

Рекомендация по платформе обработки событий
Я новичок в области обработки событий. Я ищу платформу обработки событий на основе Java для своих требований. Я прошел через лабиринт документации и руководств по платформам Myriad — Apache Storm, apache Kafka, а также традиционным брокерам событий,...
2933 просмотров

Совместное использование состояния операторами в Flink
Интересно, можно ли во Flink разделить состояние между операторами. Скажем, например, что у меня есть разделение по ключу на операторе, и мне нужен фрагмент состояния раздела A внутри раздела C (по любой причине) (рис. 1.a), или мне нужно...
1460 просмотров

В чем разница между каппа-архитектурой и лямбда-архитектурой
Если Kappa-Architecture выполняет анализ непосредственно в потоке, а не разделяет данные на два потока, то где же тогда хранятся данные в системе сообщений, такой как Kafka? или может быть в базе для пересчета? И разве отдельный пакетный уровень...
2119 просмотров

Flink или Spark для дополнительных данных
У меня нет опыта ни с Flink , ни с Spark , и я хотел бы использовать один из них для своего варианта использования. Я хотел бы представить свой вариант использования и, надеюсь, получить некоторое представление о том, можно ли это сделать с одним...
272 просмотров

Apache Apex против Apache Flink
Поскольку оба являются потоковыми фреймворками, которые обрабатывают события одновременно, каковы основные архитектурные различия между этими двумя технологиями/потоковыми фреймворками? Кроме того, каковы некоторые конкретные случаи использования,...
2377 просмотров

луч соединяет два потока с разной стратегией работы с окнами
У меня есть два независимых потока событий, для одного потока у меня есть почасовые сегменты, а для другого потока у меня есть 4-часовые сегменты, можно ли объединить эти два потока. Как я могу определить, к каким окнам в обоих потоках нужно...
798 просмотров

Многопоточность/параллельное выполнение Apache flink
Входной поток состоит из данных в формате массива объектов JSON. Каждый объект имеет одно поле/ключ с именем state , по которому нам нужно разделить входной поток, см. пример ниже. Объект1 -> «Состояние»: «Активный» Объект2 -> «Состояние»:...
1861 просмотров
schedule 27.03.2023

jq streaming - фильтровать вложенный список и сохранять глобальную структуру
В большом файле json я хочу удалить некоторые элементы из вложенного списка, но сохранить общую структуру документа. В моем примере введите это (но настоящий достаточно велик, чтобы требовать потоковой передачи). { "keep_untouched": {...
1150 просмотров
schedule 17.02.2023

Рассчитывать итоги и периодически выдавать в flink
У меня есть поток событий о ресурсах, который выглядит следующим образом: id, type, count 1, view, 1 1, download, 3 2, view, 1 3, view, 1 1, download, 2 3, view, 1 Я пытаюсь создать статистику (итоги) для...
973 просмотров

Apache Beam поверх обработки Apache Kafka Stream
В чем разница между Apache Beam и Apache Kafka в отношении потоковой обработки? Я также пытаюсь понять технические и программные различия. Пожалуйста, помогите мне понять, поделившись своим опытом.
10225 просмотров

Интеграция WSO2 Siddhi CEP и Kafka
В настоящее время я нахожусь в процессе интеграции Siddhi CEP WSO2 и Kafka. Я хочу создать поток Сиддхи, получая события от Кафки. Полученные данные Kafka имеют формат JSON, где каждое событие выглядит примерно так: { "event":{...
398 просмотров

Объект «KafkaDStream» не имеет атрибута «_get_object_id»
Я пытаюсь подключить Kafak Topic, который использует Avro, к Spark Stream. Я пробую следующий код: schema_registry_client = CachedSchemaRegistryClient(url='schema_registry_url') serializer = MessageSerializer(schema_registry_client) def...
245 просмотров

Запрос Сиддхи для события до другого в течение срока
Я пытаюсь написать запрос Siddhi, чтобы определить, не произошло ли событие до другого в течение определенного времени. Запрос, который я должен определить, не произошло ли когда-либо «X» до «Y» за всю жизнь приложения siddhi: from stream[value...
73 просмотров

Учебные пособия, представленные в потоковом процессоре wso2, не работают должным образом, в частности, «Создание прогнозов в реальном времени».
Я пытаюсь воспроизвести учебник «Создание прогнозов в реальном времени», приведенный в документации по потоковому процессору wso2, который предсказывает, будет ли груз соответствовать требованиям с учетом температуры и плотности. Я использую...
165 просмотров
schedule 24.04.2022

При попытке выполнить приложение Siddhi с использованием потока событий, сгенерированного JMeter, использование ОЗУ выходит из-под контроля.
При попытке смоделировать поток событий с помощью JMeter и использовать его в качестве источника на сиддхи, он работает некоторое время, но заканчивается чрезмерным использованием ОЗУ, и выполнение программы останавливается. Я попытался выполнить...
82 просмотров

Стриминг: вращающееся окно против микробатчинга
Чем 5-секундное окно переворачивания при потоковой обработке отличается от 5-секундного микропакета при микропакете? Оба имеют неперекрывающееся окно продолжительностью 5 секунд, в течение которого они обрабатывают записи, а затем переходят к...
412 просмотров