Почему подход Feature Store к большим данным

Автор: Х.О. Майкотт

Автоматическое извлечение признаков лежит в основе того, что делает Molecula уникальной. Концепция извлечения признаков из данных не нова и фактически была первым шагом в подготовке данных для ИИ на протяжении десятилетий. Корпоративное хранилище функций Molecula автоматически извлекает функции из всего портфеля данных компании или организации, независимо от местоположения, размера или формата. Кроме того, платформа Molecula постоянно направляет извлеченные функции по мере их изменения в режиме реального времени в хранилище функций, репозиторий с быстрым доступом, который служит мозговым центром для любой аналитики в реальном времени и машинных данных. обучение.

Подход Molecula к доступу к большим данным, основанный на функциях, представляет собой радикальный шаг вперед по сравнению с традиционными подходами, такими как федерация и агрегация. Этот пост в блоге призван предоставить доступное для непрофессионалов объяснение того, как на самом деле работает извлечение признаков Molecula и что делает его таким уникальным.

ВО-ПЕРВЫХ, НЕМНОГО КОНТЕКСТА ПРОБЛЕМЫ

Сегодня большинство больших данных можно разделить на исторические или потоковые, и они хранятся в базах данных, озерах данных и хранилищах данных. Они расположены локально, в облаке и на периферии. Важные данные о клиентах, пациентах, цепочках поставок и т. д. управляются десятками, а иногда и сотнями систем. Эта фрагментация чрезвычайно затрудняет выполнение анализа в реальном времени на предприятии.

В качестве упрощенного примера того, как данные обычно используются для анализа, представьте себе руководителя, который хочет знать, сколько пациентов посетили три или более клиник за последние пять лет, с разбивкой по географическим регионам и результатам. Традиционно соответствующие запросы пишутся аналитиком и отправляются в отдельные базы данных для возврата результатов или, в случае озер или хранилищ данных, запрашивается централизованная копия данных. В лучшем случае на подготовку такой операции уйдут часы или дни. Сама по себе задержка запроса не будет поддерживать результаты в реальном времени. Возможно, этот руководитель не против ждать часы или дни, но что, если ему или ей нужно видеть постоянно обновляемый прогноз вместимости больничных коек, чтобы принимать важные кадровые решения? Традиционные подходы к выполнению прогнозируемой потребности в режиме реального времени, подобной этой, могут быстро превратиться в крупную организационную задачу.

Учитывая необходимое участие человека, неизбежные факторы задержки и высокие затраты, связанные с традиционными методами доступа к данным, всегда есть точка, в которой технически нецелесообразно, а иногда и невозможно, получить доступ к данным в необходимом масштабе и со скоростью.

Итак, следующая глава стандартного сценария доступа к данным — создание еще одного слоя базы данных, в котором хранятся только ответы на частые запросы. Общие описания таких подходов включают: индексы, кубы OLAP, столбцовые базы данных, кэши, механизмы озера данных, облачные хранилища данных, дома-озера и отражения. При решении одной задачи добавляется новый уровень сложности. Это означает, что создается, хранится и управляется больше копий исходных данных. При современной относительно недорогой облачной инфраструктуре простое хранение дополнительных копий данных не обязательно является большой проблемой. Однако время, затрачиваемое на создание копий, пропускная способность, используемая для их передачи по сетям, необходимость предоставления, защиты и управления ими, а также человеческие ресурсы, необходимые для архитектурного проектирования, развертывания инфраструктуры, управления и усилий по оптимизации, могут перевешивать фактически реализованные усилия. ценность. Это может быть приемлемо для проектов BI в масштабе человека, но не для аналитики в масштабе машины, IoT и других приложений реального времени.

В некоторых сценариях обработки данных данные преобразуются и очищаются на внешнем интерфейсе (ETL), поэтому, когда запросы или сами данные необходимо обновить или пересмотреть, процесс обработки данных необходимо выполнять снова и снова, вводя дни, недели. , или даже месяцев в уравнении.

Перемещение данных в облако может обеспечить некоторое облегчение с точки зрения управления ресурсами, но в конечном итоге это просто переносит те же проблемы в новое место. И по мере увеличения данных растут и проблемы.

РЕШЕНИЕ ДЛЯ МАГАЗИНА ОСОБЕННОСТЕЙ MOLECULA

Корпоративное хранилище функций Molecula основано на принципиально ином подходе к хранению данных для анализа. Вместо предварительной агрегации и хранения всех необходимых данных Molecula извлекает функции из каждого из базовых источников данных или озер данных и сохраняет их в централизованном хранилище функций — наиболее эффективном формате данных, созданном для расширенной аналитики и машинного обучения. Хранилище функций поддерживает обновления данных с точностью до миллисекунды без предварительной подготовки данных. Это достигается за счет уменьшения размерности исходных данных, эффективного свертывания традиционных моделей данных (таких как реляционные или звездообразные схемы) в более низкоразмерный высокооптимизированный формат, изначально предрасположенный к машинным вычислениям. Исторически сложилось так, что методы извлечения признаков чаще всего использовались практиками машинного обучения из-за огромных рабочих нагрузок, с которыми они сталкиваются.

Технология извлечения признаков Molecula переосмысливает область аналитики больших данных в том виде, в каком мы ее знаем, устраняя необходимость копирования, перемещения или объединения. Фактически, все операции в проектах машинного обучения и аналитики могут выполняться в хранилище функций без необходимости доступа к фактическим данным. Более того, по мере увеличения размера исходных данных хранилище объектов Molecula не масштабируется с той же скоростью. Другими словами, по мере того, как данные неизбежно растут, преимущества становятся еще больше.

В функционально-ориентированном формате Molecula сложные динамические СОЕДИНЕНИЯ и анализ сводятся к побитовым логическим вычислениям, возвращающим результаты на несколько порядков быстрее, чем традиционные методы. Типичный запрос к хранилищу функций будет возвращать на несколько порядков быстрее, чем обычный запрос данных, сохраняя при этом 100% точность полного набора данных. Поскольку хранилище функций настолько доступно, JOINS и утомительный ETL могут приниматься и выполняться разработчиками приложений, аналитиками и учеными данных во время запроса, что делает весь процесс гибким и мгновенно адаптируемым к изменяющимся потребностям бизнеса. Самое главное, Molecula изначально подготавливает все данные для машинного обучения, искусственного интеллекта и самых требовательных на сегодняшний день приложений для прогнозирования, предписывания и упреждающей аналитики.

ИНТЕГРАЦИЯ С СУЩЕСТВУЮЩИМИ АРХИТЕКТУРАМИ

Независимо от того, являются ли данные структурированными, полуструктурированными, историческими, потоковыми или всеми вышеперечисленными, хранилище функций Molecula сделает их мгновенно доступными для операций в реальном времени. Данные могут оставаться в том формате и в тех системах, в которых они в настоящее время находятся, или нет. Полнофункциональное представление данных в Molecula как минимум на порядок меньше, чем исходные данные, поэтому любой процесс, связанный с использованием данных, по всем параметрам менее утомителен. Где бы и каким бы образом данные ни хранились, перемещались или обновлялись, для управления ими и доступа к ним потребуется меньше ресурсов, что позволит специалистам по данным сосредоточиться на извлечении ценности из данных с помощью усовершенствований и прорывов, которые возможны только при действительно крупномасштабных операциях в режиме реального времени. анализ данных.

Уникальная технология извлечения функций Molecula позволяет использовать в реальном времени никогда невозможные варианты использования во внутренних и внешних приложениях. Внедрение хранилища функций — один из наиболее важных способов подготовить организацию к будущему. Каждый отдел выиграет от мгновенного доступа к данным в любом масштабе. Специалисты по обработке и анализу данных могут ускорить переход от данных к бизнес-результатам благодаря мгновенному непрерывному анализу всех своих данных, а ИТ-специалисты и специалисты по безопасности могут улучшить контроль над доступом к данным, рисками соответствия и стоимостью инфраструктуры данных. От HR и маркетинга до исследований и разработок, продуктов и корпораций, организации теперь могут раскрыть ценность, которая слишком долго скрывалась в их данных.

Первоначально опубликовано на https://www.molecula.com.

Почему подход Feature Store к большим данным — это будущее для ИИ

ВО-ПЕРВЫХ, НЕМНОГО КОНТЕКСТА ПРОБЛЕМЫ

РЕШЕНИЕ ДЛЯ МАГАЗИНА ОСОБЕННОСТЕЙ MOLECULA

ИНТЕГРАЦИЯ С СУЩЕСТВУЮЩИМИ АРХИТЕКТУРАМИ

Вопросы по теме