В этом году мероприятие H2O World проводится в районе залива Сан-Франциско. Сообщество платформы с каждым днем ​​становится больше. В этом году конференцию посетили 1350 технических специалистов, в то время как в Лондоне присутствовало 1000 человек, а в 2018 году к мероприятию в Нью-Йорке присоединилось 750 человек.

Многие влиятельные лица, за которыми мы уже следим, выступали на конференции. Майк Гуалтьери, Мара Аверик, Меган Рисдал и Эрин ЛеДелл - вот некоторые из них. Нам повезло, что мы их выслушали и встретили.

Компании, ориентированные на искусственный интеллект, в основном придерживаются принципа «сначала начинайте с специалистов по данным». H2O немного изменяет этот подход. Они считают, что вам следует «сначала начать с гроссмейстера Kaggle». Это объясняет, почему в H2O работает много сотрудников-победителей Kaggle.

Понятно, что сообщества энтузиастов данных принимают Python и R. Эти языки сценариев могут оказаться нестабильными в производственной среде, поскольку они разработаны с учетом принципов первоочередности исследований. У нас нет опыта относительно того, что могло бы произойти, если бы мы запустили эти системы в производство, обслуживая миллионы транзакций в день. Здесь платформа H2O предлагает вам интерфейс Python и R, но на самом деле он работает на JVM. Вы даже не чувствуете разницы. Это отделяет H2O от конкурентов.

Интерпретируемость была ключевой темой мероприятия. Несмотря на то, что платформа поддерживает алгоритмы глубокого обучения, такие как TensorFlow, она также эффективна для объяснимых алгоритмов, таких как XGBoost или LightGBM. Также были разработаны собственные бустерные реализации. Как упомянул Агус Судджианто из Wells Fargo, ИИ должен быть объясним в банковском мире из-за жестких правил. Модели ML не могут быть черными ящиками, они должны быть прозрачными. Неинтерпретируемые модели не могут быть переданы в производство. С другой стороны, критерии интерпретируемости и точности модели обратно пропорциональны. Глубокое обучение имеет безграничную мощь, но оно бьет по стене, если нужно рассуждать. Поэтому, даже если вам нужно использовать нейронные сети, вы можете предпочесть объяснимые нейронные сети (xNN).

Производство - еще одна ключевая проблема машинного обучения. Модель машинного обучения будет успешной только в том случае, если она будет развернута, как сказал в своей презентации Майк Гуалтьери. Проекты машинного обучения служат не только академическим целям. Тем более, что развертывания недостаточно. Мониторинг производства также является жизненно важным требованием. Производительность моделей машинного обучения со временем может снизиться, даже если при развертывании они создают максимальную ценность для бизнеса. Возможно, им потребуется реконструировать или переобучить на производственном конвейере.

Помимо платформы H2O с открытым исходным кодом, компания предлагает (платный) модуль спасения жизни под названием Driverless AI для автоматического машинного обучения. Он обходит большинство этапов разработки функций для специалистов по данным. У нас еще не было возможности использовать этот модуль, но он производит хорошее впечатление. Это радикально уменьшит усилия специалистов по обработке данных. Мы также знаем, что автоматическое машинное обучение тоже интересует Google. Кажется, что автоматическое создание моделей может стать одной из самых горячих тем этого десятилетия.

Итак, на этой конференции упоминаются общие проблемы практиков машинного обучения, такие как интерпретируемость, продакшн и стабильность в продакшене. Кроме того, мы можем представить себе технологию машинного обучения завтрашнего дня с подходами этих технологических гигантов. Похоже, что автоматизация машинного обучения появится в продуктах гораздо больше. H2O World SF было действительно очень приятным мероприятием. До встречи на следующих мероприятиях!

Примечание редакции: этот пост был подготовлен при неоценимой помощи Сефика Серенгил, чей большой материал можно найти здесь.