15 # Помимо конвейеров данных

Реализация умных рабочих пространств

В этой серии публикаций мы описали многие проблемы, которые окружают конвейеры данных, прошлые и настоящие, в основном из-за традиционного понимания управления рабочими процессами. Тем не менее, эта история, даже со всеми ее историческими перипетиями и поворотами, является верхушкой айсберга, который в настоящее время распространяется на предприятия и социальные сети. По мере того, как мы расширяем сервисы данных во всех уголках нашей жилой и рабочей среды, по мере накопления изощренности сервисного инжиниринга и массовой обработки, проблемы распределенного доступа к данным и обработки данных приобретают совершенно новое значение. Мы движемся от абстрактного далекого облака к встроенной модуляции широко распространенных специализированных пространств - с данными как связующим звеном, скрепляющим все это.

Повсеместное распространение

Когда трубопровод не является трубопроводом? Когда это водопровод. В вашем доме, на рабочем месте, в вашем городе и в вашей стране есть трубы, по которым проходят коммунальные услуги - вода, газ, канализация, электричество. Эти сети частично централизованы, а частично децентрализованы для совместного использования общих ресурсов, но у них есть точки доступа повсюду. Мы можем начать с простых конвейеров, но по мере того, как водопроводная сеть расширяется, объем конвейерной обработки полностью трансформируется во что-то другое. Более того, помимо этого общественного водопровода есть еще более специализированный и частный водопровод - связь потоков человеческих процессов с политиками, барьерами, контролем доступа и адаптивными ответами.

Прошло 20 лет с тех пор, как вокруг новаторской работы Xerox PARC были придуманы термины повсеместные и повсеместные вычисления. За это время инфраструктура информационных технологий претерпела нечто вроде революции, открыв доступ к аппаратному и программному обеспечению. Без этого изменения повсеместные вычисления никогда бы не закрепились. Сегодня мы переименовали его в Интернет вещей, и несколько компаний сделали первые шаги. Повсеместные вычисления не прошли в ночи - они все еще в пути, набирают обороты и ориентируются на меняющиеся траектории бизнеса. Траектория ясна. То, что сегодня делают несколько гигантских компаний с данными, будет делать каждый в следующем десятилетии. Но сегодня все еще слишком сложно масштабировать даже простые системы. Разработчики продукта создают один вариант использования за раз. Как насчет создания для роста и удобства обслуживания?

Водопровод по глубине и по краям

Мы хотим инструментировать человеческие процессы на всем протяжении нашего присутствия в мире - от далеких космических зондов до домов и городов, а также внутри предприятий. Мы можем говорить о вычислительном облаке так, как будто это все, что есть, но его еще нет. Даже это меркнет по сравнению с логистическими процессами, которые поддерживают экономику. Растущая тема «бессерверных» вычислений - это попытки изобрести облако как единую прозрачную многопользовательскую систему разделения времени, но пока что она не учитывает практические потребности реального мира. Само облако развивается - и в конечном итоге оно охватит и гораздо больше периферийных компьютеров.

Источники поступают из сред, которые снабжают данные как контекстом, так и семантикой. Это золото, которое ищут при обработке данных, и его можно найти только на грани. Централизованные центры обработки данных могут предоставить грубую силу для выполнения определенных крупных задач, которые выходят за рамки отдельных ресурсов, но на периферии имеется много потраченных впустую мощностей, которые можно использовать более совершенной и более инклюзивной платформой. Если и есть один урок, который мы извлекли из обработки данных, то он должен заключаться в том, что процессы извлекают выгоду из контекста - от того, что они осведомлены о данных - полное разделение задач ведет к неэффективности уровней. Пока не существует единого сетевого стека с поддержкой данных, который можно было бы подключить, ИТ-инновации для этой новой эры будут подавляться их собственной сложностью. Так не должно быть.

Существуют огромные возможности для маршрутизации и планирования «бизнес-процессов» (как в государственном, так и в частном секторе) на новых многомасштабных платформах. Ключевые процессы хотят жить в двух типах мест:

Отдельно, на месте, на границе (входящие задачи):
Рядом с источниками данных вы развертываете начальную логику для обработки интеллектуальной выборки, отбора и приема данных, избавляясь от шума с самого начала.
Вы храните исходные данные в репозитории с репликацией для аварийного восстановления до тех пор, пока это может быть необходимо.
Интегрировано, в virto, в облаке (основные задачи):
Выбранные данные по запросу переносятся в более мощное облако.
Контейнеры процессов манипулируют и преобразовывают данные, а также публикуют результаты как доступные URI.

Между этими крайними точками находится ограниченная сеть, которая не может поглощать каждый бит данных, которые мы производим (даже если это была хорошая идея), и уровень хранения, который в основном забыл о сборке мусора. Интересно, как скоро ИТ столкнутся с собственным кризисом пластика - и мы перейдем от изображений пластиковых гор в Индокитае к документальным фильмам о заброшенных кладбищах данных в облаке, которые потребляют электричество и способствуют глобальному потеплению своей огромной неэффективностью использования энергии?

Получение ДНК

Отслеживание того, что вошло и что вышло из котла смешанных данных, - это не просто практический вопрос, а вопрос безопасности и целостности. Это особенно верно, поскольку обработка данных становится неотъемлемой частью встроенных сервисов на всех уровнях общества. Цепочки доказательств в бизнес-процессах и публичных процессах важны во всем, от документов судебной экспертизы до записей транзакций блокчейна. Традиционные инструменты для мониторинга отдельных систем с разделением времени (за исключением 40 лет) почти бесполезны для отслеживания поведения в микромодульной облачной среде. Что-то лучшее не за горами.

От входов до выходов процессы, управляемые данными, скрывают следы выполнения, которые помечаются по происхождению и по назначению. Находясь на грани обработки данных, Koalja использует способы извлечения информации из этих потоков и может предоставить действенные семантические данные для анализа в реальном времени и криминалистического анализа - масштабирование и модернизация трассировки ядра для нового поколения. Это Теория обещаний в действии.

От сантехники до рабочего места

Основные проблемы вычислений не связаны с бесконечными уровнями API-интерфейсов или выбором языка программирования - помимо масштабирования физической и виртуальной инфраструктуры - они сводятся к нескольким общим проблемам, связанным с интеллектуальным управлением пространством и временем:

Разбиение вычислений на выразительный граф этапов.
Хранение важных данных «рядом» с пользователями с низкой задержкой и без потери контекста.
Эффективное распространение данных, представление согласованного индекса обновлений.
Доступ к версионным данным в согласованном состоянии.
Отслеживание процессов для понимания и диагностики.

Последнее из них более важно, чем мы склонны признавать: сегодня компьютерные системы - это живые развивающиеся объекты, а не стабильные механизмы. Цель обработки данных - понять материал - процесс, в котором задействованы люди, а также ИТ-инфраструктура.

Экосистемы услуг начинаются с простых конвейеров обработки, но это не отражает их реального значения. В Aljabr нас больше интересует долгосрочная траектория обработки данных, начиная с практической простоты, чтобы донести ее до широкой аудитории. При решении сегодняшних проблем без решения основных и предстоящих проблем будет упущена возможность обеспечить стабильность поколению пользователей.

Умные рабочие места

Мы работаем вместе над одними задачами, потому что так организуются люди. Мы уже наблюдали переход к модели продавца в ИТ с микросервисами, позволяющими разделить обязанности для полного управления жизненным циклом специализаций. Отопление, освещение, инженеры-строители (Смиты, Плотники, Куперы, даже Бергессы - выберите фамилию) делали это на протяжении веков. Перекрывающиеся, но независимые проблемы получают выгоду от умной помощи и общаются через места встреч сообщества.

Сегодня мы все еще не понимаем сложности ИТ, пытаясь справиться с относительно новыми проблемами информационной эпохи. Завтра мы вернемся к старой модели человеческого общества с модульными торговыми операциями, оставляя место для автоматизации и даже искусственного интеллекта. Движущим фактором для этой эпохи интеграции станет умный водопровод. Следующим шагом будет переход от умной сантехники к умным пространствам с умными виртуальными экосистемами, простирающимися до самых краев. Ингредиенты доступны сегодня от ведущих компаний. Составление этих созревающих идей - основная задача Aljabr.

Цель интеллектуальной инфраструктуры с задачами и связями, группами DAG и DCG - не просто связать все вместе, но действовать как связная цепь данных, быть «связующим звеном» в многомасштабном компилируемом языке - связывать задания, которые написаны на совершенно разных языках.

Это программирование…

В этом блоге мы раскрыли многие из основных требований к будущим конвейерам и за их пределами, основываясь на почти пятидесятилетних уроках, извлеченных из истории и опыта. Если мы забудем о преходящей новизне технологий в новостях: микросервисы, Kubernetes, Knative, serverless, unikernels, service mesh и т. Д., Все это сводится к следующему: как масштабировать систему программирования с одного ПК до всего мира - охватывающий мегакомпьютер, состоящий из множества частей, частично совместно используемых частными лицами и изменяющихся в реальном времени. Принципы известны и разумно поняты, поэтому пора приступить к их интеграции и интегрировать в возникающее интероперабельное облако.

Это последняя запись в блоге за этот год. В Новом году мы вернемся с новыми статьями о будущем инфраструктуры с учетом данных.