5V больших данных: объем, скорость, разнообразие, виртуализация и VMware Pt. 2

Вторая часть моих статей о преимуществах виртуализации рабочих нагрузок больших данных с помощью технологий VMware. Часть 2 продолжает аргументы Части 1 в пользу рассмотрения больших данных в VMware и дает заключение о том, подходят ли вам большие данные в VMware.

Отказ от ответственности: VMware не платила мне и не просила опубликовать эту статью, и все мысли и мнения являются моими собственными. Я предоставил VMware ранний доступ к написанному, чтобы убедиться, что я не раскрыл какую-либо интеллектуальную собственность их компании, показанную мне на специальном мероприятии в соответствии с соглашением о неразглашении, которую они не считают готовой для публичного использования в данный момент.

Введение

В прошлом месяце меня пригласили в VMware на мероприятие Expert Workshop: Big Data, Scientific and Engineering Workloads, которое завершилось на прошлой неделе. В ходе трехдневной сессии VMware и ее партнеры обсудили инициативы, связанные с большими данными, и возможности их программного стека, когда речь идет о больших данных и высокопроизводительных вычислениях (HPC). Часть 1 уже давала краткий обзор того, что такое большие данные, как VMware позиционирует свою платформу для больших данных, уникальные преимущества развертывания и управления вашей рабочей нагрузкой с большими данными в VMware, а также возможность платформы использовать ускорители. Мы начнем эту статью с того места, на котором закончилась последняя, и перейдем к соображениям о том, почему вы должны выполнять свою рабочую нагрузку по работе с большими данными на VMware.

Другие причины почему большие данные в VMware?

Постоянная память

У VMware также есть инициатива энергонезависимой памяти, которая значительно повлияет на скорость записи и чтения из хранилища при рабочих нагрузках с большими данными.

Проблема с доступными вариантами хранения заключается в том, что либо они сверхбыстрые, но энергозависимые и дорогие, либо недорогие и энергонезависимые, но обеспечивают меньшую скорость, чем требуют современные приложения.

Постоянная память (PMEM) находится между двумя концами спектра, DRAM и Flash storage, обеспечивая хороший баланс скорости и стоимости.

Это новое хранилище ускорит рабочие нагрузки с большими данными, размещая больше данных рядом с процессором по доступной цене и уменьшая узкие места ввода-вывода, связанные с существующими вариантами хранения. Поскольку PMEM все еще является передовой технологией, VMware активно работает с поставщиками оборудования, OEM-производителями и независимыми поставщиками программного обеспечения для разработки и поддержки PMEM в vSphere.

Будущая архитектура будет выглядеть примерно так, как показано на рис. 4. Дополнительные сведения о энергонезависимой памяти см. в докладе Ричарда Бернера vSphere’s Virtualization of PMEM на саммите по энергонезависимой памяти SNIA.

Сеть

Компания Mellanox также была представлена на мероприятии. Их старший директор по развитию корпоративного рынка Мотти Бек и выдающийся архитектор Лиран Лисс обсудили партнерство с VMware и поделились своей дорожной картой предстоящих выпусков продуктов и услуг. Основное внимание было уделено тому, как партнерство между VMware, Mellanox и поставщиками оборудования, такими как Dell, может обеспечить высокую пропускную способность сети с малой задержкой, от чего выигрывают рабочие нагрузки больших данных по мере роста наборов данных.

Когда мы начали обсуждать пропускную способность, стало ясно, что 10 гигабит в секунду Ethernet (GbE) больше не считается приемлемым в мире больших данных. Мелланокс сделал комментарий,

«25 GbE — это новый 10 GbE. Мы рекомендуем клиентам не рассматривать возможность приобретения системы, если такой возможности нет».

В ответ архитектор Dell Technology Services (DTS) заявил, что они провели анализ цен на карты 25 GbE и обнаружили, что цена на 125 % выше, но производительность выше на 250 %. пропускные карты. Показанные технологии не ограничиваются 25 GbE, так как дорожная карта также показывает текущие предложения от 100 GbE до будущих предложений 400 GbE.

Основываясь на том, когда я начал заниматься технологиями, 400 GbE — это безумная цифра для меня. Для контекста вы можете скачать все фильмы Звездных войн в качестве 4K (100 ГБ на фильм, всего 1 ТБ) за 2 секунды (ну, по крайней мере, 10 важных фильмов по «Звездным войнам). В дополнение к решениям 400 GbE они также обсудили семейство продуктов BlueField, которые представляют собой их системы на кристаллах (SoC) на базе ARM, оптимизированные для систем хранения NVMe, виртуализации сетевых функций (NFV), системы безопасности и встроенные устройства.

Mellanox считается лидером в области сетевых решений, и стало ясно, что благодаря их тесным отношениям с VMware достижения Mellanox в области сетевых технологий будут включены в стек виртуализации VMware, гарантируя вам наилучшую производительность сети, независимо от того, с какой нагрузкой больших данных вы работаете. . Примеры на рис. 6 были предоставлены, чтобы показать, как Mellanox реализует аналитику больших данных с помощью машинного обучения. Для получения более подробной информации о ценностном предложении Mellanox своим клиентам ознакомьтесь с их презентацией Возможность использования данных.

Но действительно ли это работает на поле?

Если вы когда-либо работали в этой области, вы много раз испытывали разочарование из-за того, что новые технологии не совсем оправдывали свои обещания, когда они были вам проданы. Чтобы развеять эти мысли, ведущий специалист VMWare по производительности больших данных, Дэйв Джаффи, представил несколько моих любимых презентаций (не в обиду О’Фарреллу и Захарии), показывающих фактическую производительность рабочих нагрузок больших данных, работающих на VMware и альтернативных инфраструктурах.

Что касается тестов, Дэйв предоставил подробную информацию об аппаратном обеспечении, которое он тестировал (рис. 7), программных компонентах (рис. 8), а также о размещении серверов в узлах и стойках. Затем он продолжил демонстрировать общий инструмент для работы с большими данными, TeraSort, и то, как с помощью 4 виртуальных машин можно добиться более высокой производительности сортировки, чем при использовании голого сервера.

Я нашел эти результаты довольно удивительными, поскольку нас всегда приучали думать, что виртуализация имеет накладные расходы, хотя в этом случае она имела 0% накладных расходов и на самом деле работала быстрее. Эта тенденция сохранилась и в других технологиях больших данных, тестируемых на VMware. В части 1 мы уже видели, где в различных рабочих нагрузках машинного обучения (ML) накладные расходы на виртуализацию для производительности графического процессора составляют в среднем ~ 4%. Бенчмарк Дэйва Apache Spark продолжил тенденцию минимальных накладных расходов на виртуализацию для машинного обучения и в некоторых местах работал лучше, чем голое железо.

Логистическая регрессия, метод k-средних (рис. 10, 11) и случайный лес — это алгоритмы классификации и регрессии, используемые в рабочих нагрузках Spark Machine Learning (Spark MLlib или обычно называемая SparkML). Во всех трех случаях Дейв показал, где гипервизор VMware может обеспечить вам, по крайней мере, производительность голого железа, если не лучше, чем производительность голого железа. Если вы хотите получить аналогичную производительность своего оборудования с помощью виртуализации VMware или хотите получить более подробную информацию о контрольных показателях для логистической регрессии и вариантов использования случайного леса, ознакомьтесь с техническим документом группы производительности VMware с подробным названием Fast Virtualized Hadoop и Spark на All-Flash. Диски — рекомендации по оптимизации виртуализированных приложений для работы с большими данными в VMware vSphere 6.5. Возможно, для vSphere 7 Дейв сократит это до трех слов: Vmware+Hadoop=Fast.

Вывод

Стек технологий VMware — один из самых совершенных, когда речь идет о виртуализации вашей инфраструктуры больших данных. Если у вас возникли какие-либо из этих вопросов при рассмотрении технологии виртуализации для рабочих нагрузок больших данных:

Могу ли я использовать ускорители (FPGA, GPU и т. д.) в своих рабочих нагрузках?
Есть ли интеграция с технологиями с открытым исходным кодом, такими как использование Kubernetes для управления контейнерами на платформе?
Могу ли я виртуализировать новейшее оборудование по мере его появления, например постоянную память (PMEM)?
Сотрудничает ли VMware с поставщиками платформ для больших данных, такими как Hortonworks, Cloudera, Databricks и т. д., чтобы обеспечить оптимальное использование их технологий VMWare?
Будет ли у меня доступ к программному обеспечению корпоративного уровня и поддержке?

В настоящее время VMware либо предлагает вам решение, либо серьезно задумывается об интеграции этой технологии в свой стек виртуализации. Это не теория, поскольку VMware имеет тесты и компании из списка Fortune 500 и Global 2000, использующие свои рабочие нагрузки для работы с большими данными поверх стека технологий VMware, чтобы доказать это. К главному вопросу…

Нужно ли отказываться от существующей технологии и звонить в отдел продаж VMware?

Мой простой ответ из двух частей:

Это ваши деньги, тратьте их как хотите...
Подумайте об экосистеме.

Ответ на вопрос о том, какие технологии виртуализации больших данных лучше всего подходят для вас, можно получить, рассмотрев потребности вашего бизнеса и сравнив их с экосистемой поставщика. Я не предвижу, что многие существующие клиенты VMware проанализируют технологический стек VMware для больших данных и примут решение запускать свои рабочие нагрузки в другом месте, как я не предвижу клиента Google Cloud, Amazon Web Services или Microsoft Azure. оставив свой существующий стек технологий больших данных, чтобы использовать VMware. С учетом сказанного у меня не возникло ощущения, что стремление VMware в своих усилиях по виртуализации больших данных состоит в том, чтобы вытащить клиентов из облаков AWS, Azure или Google. Я полагаю, что вместо этого они хотят быть уверены, что если их существующие клиенты решат заняться рабочими нагрузками с большими данными, они смогут:

Выполнять рабочие нагрузки с большими данными в существующей экосистеме VMware без необходимости идти на компромиссы из-за недостаточной зрелости технологического стека.
Развертывайте эту инфраструктуру и управляйте ею через тот же интерфейс, который они уже используют для своей другой инфраструктуры, практически без необходимости повторного обучения ресурсов.
Запускайте рабочие нагрузки больших данных в собственной инфраструктуре, чтобы соответствовать внутренним или внешним требованиям соответствия.
Используйте технологию, которая охватывает модели использования частных, гибридных, общедоступных и пограничных облаков.
Получите тот же уровень корпоративной поддержки, к которому они привыкли, благодаря VMware.

Судя по тому, что я видел, VMware полностью преуспела в этих усилиях.

Если вам понравилась эта статья, нажмитехлопки 👏 кнопку.

Хотите узнать больше о Джамале Робинсоне или хотите поработать вместе? Свяжитесь с ним в Твиттере или через LinkedIn.