Когда в 2015 году мы выпустили платформу машинного обучения Seldon с открытым исходным кодом, машинное обучение было нишевой темой в мире бизнеса. Но использование того, что в общих чертах называется ИИ, сейчас является одним из приоритетных направлений стратегической программы для организаций любого размера в различных отраслях.
Миссия Селдона - помогать людям предсказывать и формировать будущее с помощью машинного обучения. Мы твердо убеждены в том, что машинное обучение является технологией, способствующей возрождению искусственного интеллекта, поскольку оно помогает людям решать проблемы всех форм и размеров и обогащает всю нашу жизнь.
Я рад начать закрывать крышу над Seldon Deploy - новым корпоративным продуктом, который этим летом выйдет на стадию закрытого бета-тестирования. Seldon Deploy помогает командам по анализу данных внедрять модели машинного обучения в производство. Он разработан для оптимизации рабочего процесса в области обработки данных с помощью контрольных журналов, расширенных экспериментов, непрерывной интеграции и развертывания, непрерывных обновлений, масштабирования, пояснений к моделям и многого другого - и все это осуществляется с помощью удобного пользовательского интерфейса. Seldon Deploy идеально дополнит нашу платформу машинного обучения с открытым исходным кодом.
Прежде чем углубиться в подробности, позвольте мне рассказать вам, почему мы создаем этот продукт.
Прислушиваясь к рынку
В прошлом году Селдон был частью крупнейшего в мире финтех-акселератора Barclays Techstars. Этот опыт помог нам получить огромное количество отзывов о продуктах от широкого круга заинтересованных сторон и подписать клиентов в сфере банковских и финансовых услуг. Мы также получили более глубокое понимание сценариев использования машинного обучения, которые ставят во главу угла крупные предприятия, и проблем, с которыми они сталкиваются при запуске проекта искусственного интеллекта.
Чтобы сформировать и подтвердить план развития Селдона, мы прислушиваемся к мнению нашего сообщества специалистов по обработке данных и клиентов об их приоритетах и проблемах, с которыми сталкиваются организации. В ходе опроса, проведенного в августе 2016 года, мы узнали, что заинтересованные стороны отдают предпочтение в среднем 4,5 вариантам использования, самые популярные из которых включают сегментацию клиентов (48%), рекомендации по содержанию (36%) и прогноз оттока (34%). Мы также увидели длинный хвост нишевых вариантов использования, таких как обнаружение мошенничества, оптимизация кредитов и получение медицинских изображений.
В прошлом году мы приняли одно из важнейших решений: сосредоточиться на некоторых из этих вертикальных сценариев использования или продолжить создание базовой технологии, работающей на обобщенной и горизонтальной основе. Большинство стартапов в области машинного обучения сосредоточены на обслуживании конкретного варианта использования, и это проверенный метод действий, который понимают и принимают инвесторы. Согласно Исследованию рынка ИИ в Великобритании, опубликованному Дэвидом Келнаром из MMC Ventures, 84% стартапов фокусируются на ИИ для своей функции или сектора. Компании могут построить надежный ров, объединив глубокую экспертизу в предметной области и эффект сети передачи данных, который улучшает сам сервис по мере поступления в него большего количества данных - с точки зрения точности и производительности модели.
52% заинтересованных сторон хотят создавать собственные модели машинного обучения. И критическая проблема, с которой сегодня сталкиваются организации, - это переход от среды НИОКР к производству - только несколько процентов моделей были запущены в производство в прошлом году. Организации заботятся о производительности, масштабируемости и рентабельности, и растет спрос на контроль, обеспечиваемый внутренними развертываниями.
Развертывание - это огромная проблема, которая остается нерешенной. Вот почему Селдон останется в 16% компаний, занимающихся ИИ, создающих фундаментальные технологии, которые можно использовать в различных отраслях и сценариях использования. Мы сузили фокус нашего продукта на развертывании, работе в различных отраслях и достижении успеха в банковских и финансовых услугах.
Рост фреймворков машинного обучения с открытым исходным кодом
Другой важной тенденцией является повышение качества и доступности инструментов и фреймворков для машинного обучения и построения моделей глубокого обучения, таких как TensorFlow, Keras и новых участников, таких как PyTorch и Caffe 2. В Seldon мы используем TensorFlow в наших клиентских проектах и вместе -организаторы и организаторы встречи TensorFlow London - сообщество из более чем 1200 специалистов по данным и энтузиастов машинного обучения, одобренное и поддерживаемое Google.
Инструменты и фреймворки для построения моделей переживают период коммерциализации и быстрой эволюции благодаря поддержке технологических гигантов и поддержке сообщества. Наука о данных похожа на гибкую разработку программного обеспечения: эффективные организации не применяют определенные языки программирования, команды имеют свободу и автономию, чтобы использовать лучшие инструменты для работы и связываться с результатами других команд через API и микросервисы. В проектах по науке о данных нет смысла применять какой-то конкретный инструмент или сервис для построения моделей. Вот почему Селдон всегда был агностиком фреймворка. Вы можете использовать его для развертывания моделей, созданных с помощью предпочитаемого вами инструмента построения моделей - он даже поддерживает модели, созданные с помощью коммерческих инструментов и сервисов, в которых модель может быть экспортирована.
Селдон Деплой
Вскоре команде Селдона стало ясно, что нам нужно создать новый корпоративный продукт, а не крупную новую версию нашей текущей платформы. Я бы пошел дальше и сказал, что решение проблемы развертывания означает создание совершенно новой категории в машинном обучении, которая находится на пересечении науки о данных и операций.
Давайте углубимся в некоторые ключевые особенности:
Проекты
Каждый проект в организации может включать в себя несколько моделей, экспериментов, развертываний в нескольких кластерах. Каждому проекту должен быть назначен руководитель и соавторы. Через единый интерфейс вы можете управлять несколькими проектами.
Рабочие процессы развертывания
Одно из узких мест, с которым сталкивается организация, заключается в том, что члены групп по анализу данных отображают свои конкретные роли в цепочке инструментов. Модели часто строят специалисты по данным, работающие индивидуально или в разрозненных группах с документацией, распределенной по различным службам. Это вызывает путаницу и задержки, потому что люди, ответственные за выпуск новых моделей, должны собрать воедино документацию о процессе построения модели и о том, что изменилось.
Seldon Deploy предоставит полностью интегрированный рабочий процесс развертывания с помощью нового восхитительного пользовательского интерфейса, который поддерживает следующих членов команды:
- Специалисты по данным - загружает модели среды выполнения в контейнеры в качестве компонентов микросервисов и запускает тесты песочницы на основе исторических или текущих каналов данных.
- Специалисты по обработке данных - управляет моделями и развертывает их в одном или нескольких кластерах (например, в производстве, на стадии подготовки, в регионах и отделах).
- Диспетчер данных - заинтересованные стороны бизнеса, отвечающие за определение контрактов на ввод / вывод для каждого проекта и ключевых показателей эффективности бизнеса, с доступом к анализу в реальном времени.
Из вышеперечисленных ролей Seldon Deploy в основном фокусируется на выполнении функций инженера по обработке данных - роли, для которой существует самая большая нехватка навыков в отрасли.
Мы рассмотрели, как вышеуказанная группа специалистов по обработке данных должна соотноситься с функциями, но мы понимаем, что все команды разные, и сделали систему разрешений на основе ролей настраиваемой на детальном уровне.
Журналы аудита
Одним из полезных результатов интегрированного рабочего процесса является то, что каждое действие и утверждение в системе является частью контрольного журнала. Преобразование каждого прогноза результатов в уникальный снимок модели и знание того, как эта модель пошла в производство, в следующем году станет более чем приятным сюрпризом.
Пояснения к модели
В мае 2018 года новый Общий регламент по защите данных (GDPR) предоставит потребителям законное «право на объяснение» от организаций, использующих алгоритмическое принятие решений.
И поскольку более важные решения принимаются и автоматизируются на основе моделей машинного обучения, организации стремятся понять, почему модели дают определенный результат. Это сложная задача, учитывая, что существует множество типов моделей с разной степенью интерпретируемости. Например. Обойти дерево решений, сгенерированное алгоритмом случайного леса, несложно, но связи между узлами и слоями модели нейронной сети находятся за пределами человеческого понимания.
Селдон применяет самые современные методы, такие как LIME, на основе недавних исследований в этой области. Технологии, которые мы интегрируем, рассматривают модель как черный ящик и проводят стресс-тестирование функций, чтобы увидеть, какое влияние они оказывают на результат. Более высокая размерность функций делает объяснения более дорогими в вычислительном отношении. Итак, одна из инженерных задач, над которыми мы работаем, состоит в том, чтобы дать возможность объяснения модели как можно более эффективно и точно с учетом требований вашего приложения и бизнеса.
Продвинутые эксперименты
Около года назад наш проект с открытым исходным кодом принял Kubernetes, который произвел революцию в том, как наша инфраструктура и модели машинного обучения упаковываются, обслуживаются и развертываются. Это упростило эксперименты, которые проверяют производительность и объединяют результаты в ансамбли во время выполнения.
Seldon Deploy позволяет инженерам данных комбинировать несколько моделей с экспериментом, таким как простой A / B-тест или динамический многорукий бандит, для создания того, что мы называем Predictive Units.
Селдон Ядро
Мы превращаемся в многопрофильную компанию, поэтому мы переименовали нашу платформу машинного обучения с открытым исходным кодом: теперь она называется Seldon Core.
Я подробно рассказывал о нашем опыте и обосновании использования Seldon с открытым исходным кодом и о том, что мы создали за первый год, и мы стремимся к тому, чтобы Seldon Core продолжал выпускаться под разрешительной лицензией на открытый исходный код - в настоящее время Apache 2.0.
Seldon Core предоставляет полностью интегрированный стек науки о данных, который работает в кластере Kubernetes. Он используется мировым сообществом специалистов по обработке данных в различных отраслях и академических кругах для развертывания моделей машинного обучения и глубокого обучения в производственных помещениях или в облаке (например, GCP, AWS, Azure). Seldon Core оборачивает модели в микросервисы внутри контейнеров, что делает его независимым от фреймворка - он поддерживает модели, созданные с помощью TensorFlow, Keras, PyTorch, Vowpal Wabbit, XGBoost, Gensim и любого другого инструмента для построения моделей.
Текущие принципы развертывания Seldon Core остаются прежними, с использованием контейнеров и микросервисов для развертывания моделей, поэтому не стесняйтесь приступить к работе сегодня.
Присоединяйтесь к нашей закрытой бета-версии
Хотите получить ранний доступ к Seldon Deploy? Нам нужны активные команды по обработке и анализу данных, которые предоставят отзывы, которые помогут сформировать продукт перед запуском.
Подайте заявку здесь, чтобы получить ранний доступ к закрытому бета-тестированию Seldon Deploy.