Всякий раз, когда мы говорим о платформе IBM z, возникает самый большой вопрос — плата за MLC. Та же проблема возникает, когда мы говорим о создании моделей машинного обучения на IBM z. Недавно я посетил веб-трансляцию SHARE Providence 2017 Live и наткнулся на одну из сессий Эмили Фармер (корпорация IBM) на тему «Работа с цифрами — анализ затрат в пользу машинного обучения на IBM z». Сессия откроет вам глаза, если вы считаете, что запуск машинного обучения на IBM z будет дорогим. В действительности все иначе. Ниже приведены 3 основные причины, почему это так:

Перемещение данных обходится дорого. В этом выступлении Эмили сначала сравнивает стоимость машинного обучения на платформе z и на серверах x86. Она рассматривает факторы, которые вызывают затраты из-за SW, HW, рабочей силы и еще нескольких факторов. Первоначально кажется, что стоимость запуска машинного обучения на мейнфрейме в 8 раз выше, чем на платформе x86. Однако дело в том, что она не добавила один из важных факторов, а именно стоимость перемещения данных, что приводит к грубой ошибке при расчете чисел. Перемещение данных с мэйнфрейма на другие платформы обходится примерно в 10 раз дороже по сравнению с перемещением данных в IDAA с мейнфрейма или их собственным запуском на z.

Далее она объясняет, что при упрощении анализа затрат стоимость передачи 1 ТБ в день значительно увеличивает стоимость. Машинное обучение на платформе x86 теперь на 40% дороже, чем машинное обучение на Z.

Не забывайте о гравитации данных и безопасности. Еще одна проблема, на которую Эмили обращает внимание при перемещении данных, — это гравитация данных. Это означает, что некоторые данные слишком велики для перемещения и слишком затратны для повторного хранения. Некоторые слишком сложно скопировать, и они остаются в оригинальном формате.

Еще одна проблема связана с безопасностью: при перемещении данных они становятся доступными для физической сети и могут нарушать нормативные требования.

Старые устаревшие данные бесполезны. Далее Эмили обсуждает, что если мы уменьшим частоту перемещения данных. Она объясняет, что уменьшение частоты перемещения данных может снизить стоимость перемещения данных. Переход от ежедневного к двухнедельному сокращению стоимости перемещения данных более чем на 70%.

Но затем нам нужно увидеть последствия перемещения старых устаревших данных для запуска аналитики.

Все мы знаем, что данные постоянно меняются. Согласно проведенному исследованию, каждую минуту ежедневных 48 часов видео на YouTube загружается, отправляется 204 миллиона сообщений электронной почты, отправляется 100 000 твитов, 600 000 фрагментов контента передаются на Facebook.

Задержка в понимании информации на несколько секунд может стоить не только денег, но и жизни. Возьмем, к примеру, здравоохранение или банковское дело. Самые точные модели строятся на самых последних данных.

Далее она делится исследованием, проведенным UCI, которое показывает, что снижение точности модели на 10 % привело к увеличению потерянных доходов бизнеса в 3,55 раза. Кроме того, модели ухудшаются с течением времени и изменением данных. Вам нужно переобучить модель, чтобы она оставалась точной. Это делается путем мониторинга и ремоделирования. Далее она объясняет, что Data Scientist тратят от 50 до 80 процентов своего времени на рутинные задачи по подготовке данных, такие как сбор, маркировка, очистка, организация данных и т. д. Но они предпочитают больше заниматься реальной наукой о данных и моделированием.

Учитывая приведенные выше факты, не кажется ли вам, что ML на IBM z намного лучше, чем на распределенных платформах? Пожалуйста, прокомментируйте, если вы думаете иначе.

(Для получения более подробной информации посетите официальный сайт SHARE.)

Чтобы увидеть больше таких статей, посетите — Мой LinkedIn или Мой личный блог.