Авторы: Парвин Джиндал, Даррен Лю, Алина Смирнова

VIZIO — ведущий бренд Smart TV в Соединенных Штатах, использующий данные наших Smart TV для поддержки нашего бизнеса платформы и создания привлекательных условий для наших клиентов. Являясь лидером в области данных и аналитики, мы добились больших успехов в обновлении опыта просмотра. Теперь, когда мы рассмотрели будущие потребности нашего бизнеса, мы перешли на Databricks Lakehouse, чтобы поддержать наш быстрый рост.

До Databricks Lakehouse у нас не было единой платформы для запуска бизнеса данных как услуг в больших масштабах, который требовал приема и обработки данных в режиме реального времени с миллионов телевизоров. Поэтому мы проявили творческий подход, объединив множество сервисов данных и используя хранилище данных для поддержки нашего бизнеса. Это была блестящая система, но по мере роста объемов данных и количества новых функций, которые бизнес хотел добавить, управление этой системой стало непомерно дорогим и отнимало много времени.

Кроме того, было бы очень сложно установить отдельную систему машинного обучения для потоковой передачи и производства в реальном времени поверх нашего текущего хранилища данных для поддержки новых функций. Это потребовало бы от нас создания этих систем с нуля, извлечения данных и управления ими (вместе с любыми моделями) полностью вне хранилища данных.

Было ясно, что нам нужно нечто большее, чем просто новое хранилище данных и добавление новых продуктов для разных вариантов использования…

Путешествие в дом озера Databricks:

Во-первых, мы определили множество вариантов стандартизации нашей будущей платформы. Мы оценили следующие варианты:

● Продолжаем использовать наше текущее хранилище данных + собственные решения.

● Переход на хранилище данных (наряду с использованием DBT, Airflow, платформы машинного обучения, отдельного уровня потоковой передачи и т. д.)

● Самостоятельный хостинг Spark и другие необходимые услуги.

● Озерный домик Databricks

Почти все решения были неосуществимы и просто создавали разные «архитектуры Франкенштейна», которые заставляли нас снова идти по тому же пути.

TL;DR — Databricks был самым простым и самым экономически эффективным решением из всех протестированных нами. С другими поставщиками хранилищ данных, которых мы рассматривали, нам пришлось бы создавать свои собственные системы для потоковой передачи в реальном времени, исследовательской обработки данных, оркестровки и производства MLops. Блоки данных предлагали весь спектр вышеупомянутых инструментов, что позволило нам быстро приступить к работе и легко управлять средой.

Вот основные критерии, которые повлияли на наше решение:

Открытость — Databricks построен на компонентах с открытым исходным кодом, таких как Spark, Delta Lake и MLflow, которые являются проверенными стандартными отраслевыми проектами с годами поддержки.

Масштабируемость. Мы обрабатываем сотни ТБ данных в день, и наличие платформы, достаточно надежной, чтобы справиться с таким масштабом, чтобы поддерживать работу нашего бизнеса, имело первостепенное значение.

○ Databricks с Photon смогли обеспечить нам превосходную производительность для наших рабочих нагрузок, связанных с большим количеством соединений, но в озере данных с открытыми форматами таблиц и с затратами, линейно растущими по мере роста данных, даже в массовом масштабе.

○ В частности, Databricks Photon оказался в 3 раза быстрее для наших нужд, чем другие поставщики хранилищ данных. Это дало нам уверенность в том, что система может хорошо масштабироваться.

Стоимость. При работе с платформой такого масштаба очень важно удерживать затраты на одном уровне. Databricks позволили нам линейно масштабировать наши расходы по мере роста наших данных и гарантировать, что мы используем платформу наиболее оптимальным образом.

○ В частности, Databricks — единственный из протестированных нами поставщиков, который позволил нам «приспособить» вычисления к правильному сценарию использования. Например, для достижения наилучшей производительности в ETL нам требовались экземпляры, оптимизированные для вычислений, для лучшего параллелизма в преобразованиях, а для готовых к работе наборов данных, которые требовали больших объемов соединений, экземпляры, оптимизированные для хранения, были лучшими, а экземпляры, оптимизированные для памяти, лучше всего подходили для наших потоковых рабочих нагрузок в реальном времени. Другие поставщики хранилищ данных, которых мы рассматривали, предлагали либо монолитные кластеры, либо модель размера футболки, но ни один из них не дает нам такой возможности.

○ Благодаря Databricks Photon у нас теперь есть реальный способ сократить наши расходы до 32 % по сравнению с другими вариантами, которые мы оценили.

○ Кроме того, благодаря несвязанной архитектуре вычислений и хранения мы можем масштабировать наши расходы линейно по мере роста объема данных.

AI/ML — поскольку мы являемся компанией, занимающейся передачей данных, для нас было очень важно масштабировать нашу практику машинного обучения.

○ Нам требовалось решение, предлагающее многоязычную среду Notebook для исследовательского анализа данных и разработки функций, автоматизированное отслеживание экспериментов и управление ими, обучение многоузловой модели, развертывание модели производственного уровня для логического вывода в реальном времени и хранилище функций для упрощения повторного анализа. -использование функций в бизнесе.

Потоковая передача в реальном времени. Наши бизнес-требования требовали повышенной актуальности данных, которую могла обеспечить только архитектура потоковой передачи. Поскольку у нас есть жесткие соглашения об уровне обслуживания, крайне важно иметь возможность контролировать частоту микропакетов. Databricks прекрасно соответствовали всем этим критериям.

В конечном счете, Databricks стала единственной платформой, которая могла управлять ETL, мониторингом, оркестровкой, потоковой передачей, машинным обучением и управлением данными на единой платформе. Databricks SQL + Delta не только позволяет быстрее выполнять запросы к реальным данным(в нашем анализе Databricks работает в 3 раза быстрее), но нам больше не нужно покупать другие сервисы только для того, чтобы запустить платформу и добавить особенности в будущем. Это сделало решение о переходе на архитектуру Lakehouse очень убедительным для решения наших текущих задач и при подготовке к успеху в нашей будущей дорожной карте продукта.

Добро пожаловать в домик у озера:

Поскольку в 2023 году мы активно переходим, преимущества Databricks Lakehouse были ощутимы. Наши основные конвейеры ETL, которыми когда-то было трудно управлять и которые плохо масштабировались, теперь являются надежными конвейерами в рабочих процессах Databricks, которые управляют заданиями структурированной потоковой передачи с полностью видимым конвейером.

То, что когда-то было серией монолитных пакетных загрузок нашего Current Data Warehouse, управляемой вручную, теперь представляет собой полностью эластичное задание, работающее на эфемерных вычислениях, которое автоматически увеличивается и уменьшается до нужной емкости для этого задания.

Например, в одном задании все части Databricks Lakehouse работают без проблем друг с другом, например:

Delta Lake — все столы представляют собой открытые дельта-таблицы, которые эффективны и просты в управлении. Благодаря ZORDER, автоматическому сжатию, путешествиям во времени и многому другому у нас есть полностью управляемый дом у озера в открытом формате.

Рабочие процессы. Нативный чрезвычайно надежный оркестратор, встроенный прямо в платформу без дополнительных затрат. Это обеспечивает оповещение, оркестровку условных задач и автоматическое управление кластером, что делает работу платформы невероятно простой. Все вычисления в рабочих процессах (Jobs Compute) являются эфемерными и автоматически масштабируются, что значительно снижает затраты, поскольку они могут автоматически подгонять вычислительные потребности к конкретной задаче во время выполнения. Эту встроенную оркестровку почти невозможно выполнить в других хранилищах данных без добавления сторонних инструментов.

Обработчик структурированной потоковой передачи — все конвейеры теперь являются заданиями структурированной потоковой передачи, которые обеспечивают автоматическое управление операторами, восстановление после сбоев, добавочную обработку и управление пропускной способностью. Теперь вместо хрупкой почасовой пакетной логики в python все, что нам нужно сделать, чтобы получить данные быстрее, — это изменить интервал срабатывания нашего конвейера, а структурированная потоковая передача сделает все остальное. Это делает сломанное состояние делом прошлого для нашей команды.

Ноутбуки. Любые конвейеры могут быть построены непосредственно в ноутбуках и сразу же запланированы как производственные задания, что вдвое ускоряет выход на рынок без ущерба для управления. Теперь, когда Databricks предлагает поддержку IDE, у нас есть лучшее из обоих миров.

Photon. Наш ETL сложный, а движок Photon от Databricks позволил не только ускорить работу нашего конвейера, но и намного дешевле, чем наше предыдущее решение для нашего хранилища данных. До Photon такая производительность для рабочей нагрузки в стиле хранилища данных (подумайте о большом количестве объединений/группировок/преобразований) была просто невозможна в открытом озере данных.

Databricks Serverless SQL. Предложение Databricks для бессерверного хранилища использует нашу систему качества данных, которая отправляет автоматические оповещения, создает собственные панели мониторинга профилей качества данных и позволяет пользователям выполнять аналитику Ad Hoc SQL непосредственно на своем Delta Lake. как и любое другое облачное хранилище с мгновенным запуском и закрытием.

Вывод:

Собрав все это вместе, мы теперь имеем архитектуру, которая дает нам возможность консолидировать различные варианты использования платформы данных (BI, AI, Streaming) с одной унифицированной платформой, с линейным масштабированием затрат, имеет полную наблюдаемость, автоматизированное управление состоянием, хорошо масштабируется. , и настраивает нас на успех в наших будущих планах по более новаторским продуктам расширенной аналитики:

Мы не только настроены на развитие нашего бизнеса, но и наши инженеры стали более счастливыми, более продуктивными и теперь могут сосредоточиться на том, чтобы оставаться на переднем крае инноваций Smart TV.