Четыре страны принятия ЭКГ

Этот блог представляет собой метафорическое путешествие, которое многие из нас предпринимают к концепции построения крупномасштабных графов знаний (ЭКГ). Мы рассмотрим три перехода, которые необходимо совершить командам, чтобы перейти от решения проблем с использованием плоского представления данных к ЭКГ с миллиардом вершин, работающим на оптимизированных для оборудования графических серверах.

Чтобы помочь командам осуществить этот переход, мы должны понимать, какие новые яркие стили должны усвоить команды при продвижении ЭКГ. Мы покажем, как люди могут перейти от стилей решения проблем с использованием плоских представлений данных через небольшие графы к большим графам и, наконец, к решению проблем с использованием баз данных аппаратно-оптимизированного графа (HOG). Мы сосредоточимся на трех различных переходах, которые команды совершат в поисках новых моделей бизнес-проблем.

Чтобы евангелисты EKG добились успеха в крупных организациях, необходимо научить их делать такие переходы. Наша цель здесь - создать увлекательную дорожную карту для заинтересованных сторон, используя яркие истории, которые легко вспомнить. Наша гипотеза состоит в том, что эти яркие истории можно пересказывать, когда нас нет рядом. Хорошие истории помогают командам обрести уверенность в том, что они могут пересказать эти истории и объяснить другим заинтересованным сторонам, почему путешествие ЭКГ к HOG Heaven того стоит.

В этой статье мы будем использовать метафору Карта путешествия. На каждой земле будут ключевые жители и свой набор монстров. Возможно, мы сможем создать из этого приключения ролевую игру. Вы стоите в открытом поле… пусть путешествие начнется!

Справочная информация о когнитивных стилях

В августе 1989 года, когда я работал в NeXT Computer со Стивом Джобсом, я посетил презентацию доктора Эда Барбони, который тогда учился в колледже Аллегени. Инновационный компьютер NeXT продавался в сфере образования, и Эд стал одним из главных проповедников обучения новым навыкам решения проблем с использованием передовых компьютеров NeXT.

Эд познакомил нас с концепцией, которую он назвал когнитивным стилем, когда люди со специальной подготовкой развивают определенный образ мышления и решения проблем. Эд твердо верил, что использование компьютера NeXT для выполнения таких задач, как создание и выполнение симуляций, изменит способ решения учащимися задач.

Влияние технологий на решение проблем и овладение знаниями на фабриках и офисах, заполненных компьютерами, было подробно изучено гарвардской писательницей Шошаной Зубофф в ее книге 1988 года «В эпоху умных машин». В течение почти двух лет я читал, перечитывал и пытался применить принципы, изложенные в ее книге, для создания учебной программы по обучению объектно-ориентированному программированию на основе графического интерфейса пользователя с использованием инструментов NeXTStep Interface Builder. Эти области продолжали развиваться в то, что мы теперь называем «вычислительным мышлением». Это абстрактные шаблоны, которые мы стараемся внедрять во все наши онлайн-тренировки в программах CoderDojo.

В течение нескольких лет я пытался интегрировать эти концепции в свои курсы объектно-ориентированного программирования на базе соединений в NeXT. Я нашел достоинства в идеях Зубоффа о том, что разные люди с разным опытом решают проблемы по-разному. Обучение новым когнитивным стилям требует ознакомления учащихся с новыми шаблонами проблем / решений и выяснения того, как создать учебный план на основе этих шаблонов.

Разработка высококачественной учебной программы, чтобы помочь студентам перейти к этим новым стилям, была нетривиальным процессом. Для достижения хороших результатов потребовалось преподавание одного и того же курса большое количество раз с тщательными наблюдениями и тестированием отдельных уроков и многократными повторениями. Это то, над чем я сейчас провожу много часов в пространстве ЭКГ.

Центральным элементом этого процесса помощи людям в освоении новых когнитивных стилей является распознавание и обозначение различных стилей и изучение стратегий, которые помогут учащимся плавно перейти к новым когнитивным стилям без излишнего стресса. Мы должны предоставить им ступеньки, чтобы помочь им двигаться в новых направлениях. Вот моя попытка обозначить и выделить четыре различных стиля в дорожной карте для принятия ЭКГ в качестве ядра центральной нервной системы организации.

Предполагайте позитивное намерение

Мы начинаем наше путешествие по этим четырем странам, исходя из позитивных намерений. Мы исходим из предположения, что все наши участники этого общего пути хотят хорошо обслуживать своих клиентов. Они не отказываются намеренно от предоставления услуг своим клиентам. У них просто нет соответствующей подготовки и опыта, чтобы мигрировать из одной страны в другую. Мы задаем вопрос: «Как мы можем помочь им в их путешествии».

Мы исходим из предположения, что если бы наши участники глубоко понимали плюсы и минусы каждой из земель, они приняли бы лучшее решение о создании систем, которые обслуживают своих клиентов. Но многие из наших команд застряли в одной стране, вложив значительные средства в существующие системы. Иногда это стороннее программное обеспечение, работающее только с устаревшими базами данных. Иногда считается, что старые методы будут работать, несмотря на то, что конкуренты продолжают использовать новые технологии. Какими бы ни были их предубеждения, работа евангелистов ЭКГ - помочь им перейти на следующий уровень познания, когда они будут к этому готовы.

Графы знаний о четырех странах для предприятий

Чтобы помочь нам визуализировать различные когнитивные стили на пути к внедрению ЭКГ, давайте создадим четыре отдельных «области познания» и дадим им ярлыки. Мы будем думать о каждом из них как о изолированных островках моделей решения проблем и искать изменения, которые нам необходимо внести, чтобы заставить их перейти на следующий остров решения проблем. Начнем с места, которое я называю «Флатландия», в честь восхитительной сатирической новеллы 1884 года Эдвина Эбботта. Эта книга и последующие фильмы, снятые по ней, заслуживают отдельного блога, но это уже отдельная статья.

Остров 1: Флатландия

Flatland - это наша отправная точка для познания данных. Плоские табличные представления знаний характеризуют нашу Флатландию. Все, что мы видим в окружающем мире, должно аккуратно помещаться в строки и столбцы таблицы. Это плоское представление знаний очень удобно. Это действительно началось 5000 лет назад, когда сельское хозяйство впервые стало популярным в плодородном полумесяце, и мы начали писать бухгалтерские записи на глине. На этих глиняных табличках в строках и столбцах записывались сельскохозяйственные операции. Наши бухгалтерские системы делают это и сегодня.

Флатландия - многолюдное место. По моим оценкам, здесь проживает 90% организаций, не относящихся к Заливам залива. Многие прожили здесь большую часть своей карьеры.

Плоское представление знаний эволюционировало с годами от глиняных табличек до свитков папируса, бумажных бухгалтерских книг, перфокарт, плоских файлов COBOL и таблиц в реляционных базах данных. Электронная таблица - один из величайших обитателей Флатландии.

Несколько лет я работал в фирме с большим бухгалтерским подразделением. Обычно они нанимали студентов-бухгалтеров сразу после окончания колледжа, а старшие партнеры фирмы контролировали их обучение. Эти старшие партнеры широко использовали электронные таблицы. Что меня удивило, так это то, насколько умно они стали использовать электронные таблицы почти для каждой задачи, которую они выполняли. Вместо использования MS-Word они отправляли мне длинные текстовые документы в ячейках электронной таблицы. Вместо использования PowerPoint они перелистывали вкладки электронных таблиц с новым текстом и графикой. Когда у них была проблема с базой данных, Excel стал их базой данных, когда у них были задачи программирования, макросы Excel из-за их языка программирования.

Было ясно, что они умно использовали имеющиеся у них инструменты, но когда им давали новую задачу, которая не вписывалась в строки и столбцы, у них часто возникали проблемы. Когда элемент имел отношения ко многим другим элементам, они часто переполняли ячейку значениями, разделенными запятыми. Когда в строках было много неизвестных значений ячеек, их электронные таблицы были в основном пустыми (разреженными).

Затем в плоских файлах появилась новая функция, называемая внешней ссылкой. Это были способы сравнения двух столбцов в двух таблицах, чтобы увидеть, связаны ли они друг с другом. Если бы это было так, то эти таблицы можно было бы СОЕДИНИТЬ, и родилась новая таблица.

Проблема в том, что, хотя операции JOIN хорошо работали для объединения двух или трех таблиц, чем больше таблиц нужно было JOINED, тем медленнее производительность. Вещи с действительно сложными отношениями было трудно смоделировать и масштабировать. По правде говоря, все разработчики моделей данных согласны с тем, что им пришлось срезать углы, чтобы уменьшить количество соединений. Они сражались с монстрами JOIN грязными мечами денормализации. Эти решения притупили точность моделей и омрачили реальность. Элементы данных иногда были заполнены данными, которые им не принадлежали. Небольшая ложь об истинном значении колонки вкралась и заставила команды репортеров рвать на себе волосы от боли.

Когда создавались эти новые реляционные модели, они были мягкими и мягкими, и их легко было слепить. Но по мере того, как загружалось все больше и больше данных, они становились твердыми и хрупкими, как затвердевание бетона. С каждым созданным отчетом все становилось все труднее. В конце концов, даже небольшие изменения требовали длительного путешествия в горы, чтобы посетить комитет по контролю за изменениями моделирования данных. Немногие люди возвращаются с вершины горы с улыбками на лицах.

Пользователи во Флатландии требуют терпения. Их веб-страницы обрабатываются за десятки секунд, и они, кажется, всегда становятся медленнее, чем больше данных загружается в их системы. Иногда пользователи не ложатся спать поздно ночью, когда в системе меньше других людей.

Пользователи во Флатландии ходят с большим шаром и цепочкой под названием «ERP», обернутым вокруг их ног. Эти системы были разработаны для управления традиционными бухгалтерскими и финансовыми системами компании. Но они плохо справляются с созданием рекомендаций продолжительностью менее 50 миллисекунд для 20 000 одновременных пользователей на вашем веб-сайте.

Гонщики на скоростных гонках во Флатландии управляют автомобилями с помощью единых больших таблиц фактов, в которых только один уровень СОЕДИНЯЕТСЯ с общими размерами. Когда команды не могут прийти к единому мнению о фактах или размерах, они быстро создают новые автомобили, чтобы оптимизировать свои СОЕДИНЕНИЯ. Первоначальная цель Flatland заключалась в том, чтобы создать единое хранилище данных, в которое все приходили бы поклоняться богам анализа. Теперь по острову ездят сотни маленьких карт данных, каждая со своей версией правды.

Когнитивные стили: что мы можем разместить в этой таблице, строке или ячейке? Как сделать модели простыми? Как мы можем минимизировать количество СОЕДИНЕНИЙ?

Ключевые игроки: таблицы Monsters, JOIN Monsters, Scale Monster, Fact Table Speed ​​Racers.

Остров 2: Земля графа с одним узлом

На этом втором острове живут люди, навсегда победившие монстров JOIN. Вместо того, чтобы сравнивать столбцы, когда они пересекают отношения, они просто перескакивают через указатели в памяти. Они легкие и быстрые. Но только около 5% команд, с которыми я работаю, когда-либо решались на Single Node Graph Land.

Эта земля богата производительностью и проницательностью. В этой стране все веб-экраны отображаются за 1/100 секунды. Берега Single Node Graphland заполнены красивыми сложными формами и множеством сложных взаимосвязей, которые отражают реальный мир. В отношении правдивых моделей нет компромиссов. Застройщики чувствуют себя в раю и пьют пинья-коладу из пляжных хижин.

Single Node Graph Land - относительный рай, потому что люди не живут со страхами монстров JOIN. Когда возникает сложность, они просто справляются с этим, добавляя новые отношения по своему желанию. В результате модели данных полны правды и красоты. Модели данных изящно отображаются как публичные скульптуры истины. Ни у кого нет секретов упрощения, которые нужно скрывать. Все разделяют единую модель данных, потому что это правдивая модель мира. Совместное использование помогает снизить затраты.

Все хорошо, пока на них не обрушится цунами «новая загрузка данных». Затем оперативная группа начинает карабкаться. Потому что, если эти маленькие указатели не помещаются в доступную оперативную память, все запросы внезапно замедляются, ожидая загрузки новых данных с твердотельных накопителей или, что еще хуже, вечно медленно вращающихся дисков. Добавление дополнительной оперативной памяти немного помогает, но конструкция в корне нестабильна по мере роста объемов данных. Время отклика трудно предсказать. Пилотные проекты, как правило, остаются изолированными от реальных проблем масштаба предприятия, а группы, занимающиеся графами, сосредотачиваются на проблемах, которые подходят для оперативной памяти сервера. Разработчики живут в страхе перед новой загрузкой данных и упорно трудятся, чтобы сохранить все в оперативной памяти.

Когнитивный стиль: точные модели реального мира, общие модели. Но что мы можем уместить в ОЗУ?

Ключевые игроки: разработчики в пляжных хижинах, слишком мало оперативной памяти, масштабные монстры, тусанми с загрузкой данных, медленно вращающиеся диски, похожие на ленивцы.

Остров 3: Земля распределенных графов

Третья глава нашего путешествия - это относительно новый остров: Страна распределенных графов. Этот остров существует для большинства компаний всего три года, хотя компании Bay Area, такие как Google, Facebook и LinkedIn, живут на этом острове более восьми лет. Этот остров обладает многими из тех же чудес страны с одним графом узлов. Модели точны и могут использоваться многими бизнес-подразделениями. Но есть одно ключевое отличие. Ужасный RAM Monster остался позади! Больше не нужно бояться новых загрузок данных, снижающих производительность!

На этом острове, когда загружаются новые данные, новые серверы волшебным образом сливаются с главным островом. Данные прозрачно изменяют баланс на новой земле. Ни один субрегион острова не испытывает чрезмерного стресса. Все равномерно делят работу.

И никакие услуги не прерываются в периоды роста. Все гудит без сучка и задоринки. По мере завершения крупных сезонных проектов эти серверы можно перенести в другие важные проекты. Размер острова изменчив, и он увеличивается и уменьшается по мере изменения спроса.

Но здесь все еще есть несколько монстров. Арендная плата по-прежнему невероятно высока. Есть большой спрос, но недостаточное предложение подключенных данных. Стоимость импорта множества различных источников данных со сложными системами отслеживания измененных данных (CDC) нетривиальна. Объединение данных с использованием простых детерминированных правил требует времени и усилий.

Задача здесь состоит в том, чтобы держать под контролем стоимость системы. ОЗУ сейчас недорого, но уровни программного обеспечения могут по-прежнему исчисляться шестизначными цифрами на ТБ в год. Необходимо принять осторожное решение о том, какие данные остаются на графике.

Эта земля еще не заселена. Я предполагаю, что менее 3% компаний действительно строят масштабируемые графы корпоративных знаний. Однако многие постепенно осознают, что им следует рассматривать это как способ снизить затраты, интегрировать представления своих клиентов, предлагать более точные рекомендации и прогнозы, использовать машинное обучение и сокращать время для понимания.

Поскольку остров все еще новый, на рынке просто не хватает конкуренции, чтобы снизить расходы. На этом острове доминируют несколько торговцев. Речь идет о RAM-ROI. Какие элементы мы можем позволить себе хранить в оперативной памяти? В результате на острове разрешены только данные, в которых есть срочные потребности бизнеса. Если компания не желает платить за отображение или отчет, данные выталкиваются с острова в глубокий океан хранилища больших двоичных объектов, где возможность запросов падает на порядки.

На этом острове вопрос о том, как выращивать остров, не основан на мечтах людей, ищущих глубокое понимание очевидно несвязанных данных. Решения основаны на безжалостном краткосрочном анализе рентабельности бухгалтерии. Данные, которым больше года, нуждаются в богатом покровителе, или правила хранения данных срабатывают каждый день. Эти данные о мошенничестве, которые вы просматривали вчера, - уф! Сегодня его нет.

Исследователи мошенничества, которым для выявления закономерностей нужны исторические данные за пять лет, теперь обращают внимание на несвязанные графики. Они знают, что можно найти соединения, но теперь им приходится прибегать к grep -ингуляции через старые хранилища BLOB-объектов и корзины S3. Их светодиодные свечи горят до поздней ночи.

Специалисты по анализу данных с блестящими гипотезами о новых байесских причинно-следственных моделях остались без крова в трущобах отчаяния, потому что их данных больше нет в ЭКГ. Они попрошайничают на улицах с помощью своих моделей машинного обучения в стиле стимпанк и своих потрепанных блокнотов Jupyter, заполненных каракулями уравнений, в которых только они видят истинную красоту.

И команды, которые хотят получать уведомления о необычных действиях? Ну, у них есть несколько отчетов, которые отправляются раз в ночь. Эти отчеты не так много, поэтому они часто пропускают ключевые изменения, прежде чем могут быть приняты контрмеры. Не все ранние вмешательства возможны из-за высокой стоимости операций.

Ключевые участники: безжалостные бухгалтеры, исчезновение данных, расследование мошенничества, зашедшее в тупик, разочарованные специалисты по данным, уведомление слишком поздно, чтобы принимать меры.

Island 4: Hardware Optimized Graph Land (также известный как HOG Heaven)

Свиньи небеса: состояние большой легкости и счастья

Сегодня мы стоим на берегу Земли распределенного графа, глядя через море на новый остров, который только формируется в результате новых извержений вулканов. Этот остров еще не является широко обитаемым, но многие из нас видят его потенциал. Это земля аппаратной оптимизации графа (HOG). Мы называем это HOG Heaven, потому что оно обещает сделать нашу ЭКГ настоящей центральной нервной системой реальностью. На небесах HOG мы видим состояние большой легкости и счастья.

Мы знали, что эта земля существует, благодаря легендам, рассказанным о производительности Cray Research Graph Engine еще в 2014 году (см. 6.10 наш пример использования NoSQL здесь). Мы знали, что графические системы могут масштабироваться до десятков тысяч GTEPS, потому что мы могли видеть их в тестах Graph500. Но может ли средняя компания поместить свои ACID-транзакции в эту базу данных и получить пять девяток высокой доступности?

На этом острове огромное количество (десятки или сотни тысяч) ядер ждут новых задач. Поступает запрос, и эти потоки немедленно начинают обход вашего графа, быстро переходя по ссылкам рядом с потоками в памяти. Наши программы небольшие и точные, они позволяют нам выполнять сложные операции и искать глубокие закономерности в сложных структурах.

В HOG Heaven исторические данные хранятся годами. Специалисты по расследованию мошенничества постоянно выявляют плохое поведение и экономят деньги.

Движение Внедрение повсюду является частью религии HOG Heaven. Алгоритмы машинного языка постоянно сканируют подмножества графа и перестраивают вложения почти для каждой вершины. Управляющие данными используют это встраивание для постоянного мониторинга качества и согласованности данных при каждом новом импорте данных.

Данные больше не нужно отправлять в кластер GPU для обучения. У нас здесь достаточно мощности процессора. Машинное обучение выполняется на месте. Данные не перемещаются без необходимости, а служба безопасности хорошо спит по ночам.

А ваши специалисты по данным? Они открывают для себя новые идеи, о которых они даже не догадывались. Они постоянно используют процессы запросов и обнаружения в реальном времени для работы в реальном времени с экспертами в предметной области, которые постоянно задают новые вопросы. Миллиард запросов к вершинам всего в нескольких минутах ходьбы.

А те системы раннего предупреждения, которые вы никогда не могли себе позволить установить? Есть тысячи, которые постоянно работают в фоновом режиме. Они находят аномалии, пока есть время вмешаться. Они лучше, чем предварительные винтики в отчетах меньшинства.

HOG Heaven - это глубокое системное мышление

HOG Heaven - это не случайность. Это результат глубокого системного мышления. Это мышление простирается от потребностей клиента до набора команд ЦП и оборудования для доступа к памяти. Это результат тщательного понимания того, как мы храним связанные знания, чтобы наилучшим образом обслуживать наших клиентов и дать нашим специалистам по данным возможность стать продуктивными учеными. Взаимодействие компонентов является сложным: маркированные графы свойств, безиндексная смежность, распределенные базы данных, быстрое переключение указателей и продуманная конструкция оборудования, обеспечивающая большое количество ядер и быстрые линии памяти в экономичных решениях, - все они взаимодействуют друг с другом.

Поиск союзников и выявление неохотных членов команды

Один из уроков, которые мы извлекли при продвижении ЭКГ, заключается в том, что большие стратегические изменения в направлении требуют широкого консенсуса. Получение исполнительного спонсора - это только первый шаг. Нам нужны союзники по всей организации. Иногда союзники приходят из необычных мест.

Например, есть ли у них руководители отдела кадров, которые могут помочь вам найти агентов изменений в вашей организации? Есть ли члены команды из ваших корпоративных групп безопасности, которые обеспокоены разрастанием сотен мини-дата-центров? Есть ли люди в маркетинге, которые хотят продвигать вашу организацию как лидера в области ИИ?

Построение диаграммы влияния организационной структуры может быть еще одним «системным мышлением» способом подойти к проблеме определения того, кто находится на каком острове и что вам нужно сделать, чтобы переместить их на следующий остров.

Каким бы ни было ваше путешествие, не пытайтесь проделать его в одиночку. Мы хотим, чтобы вы нашли других членов нашего растущего сообщества ЭКГ и поделились как своими историями успеха, так и своими поражениями. Мы все можем учиться друг у друга в этом общем путешествии.

Удачных путешествий!