Хотя Actable AI фокусируется на извлечении полезных идей из данных, мы никоим образом не заботимся о качестве наших моделей ИИ. В этом сообщении блога мы показываем тест производительности наших моделей прогнозирования с помощью DataRobot Autopilot, одного из самых популярных поставщиков DSML на рынке.

В этом тесте мы случайным образом выбираем 10 популярных наборов данных из Kaggle и других источников. Выбранные наборы данных различаются как по количеству строк, так и по количеству столбцов. Столбцы могут быть числами, категориями или текстом. Затем мы запустили регрессионные модели для половины наборов данных и классификацию для другой половины. Мы используем почти все доступные функции, кроме функций, которые пропускают предсказанные цели. В Actable AI для каждой модели мы установили параметры оптимизации качества, ограничение времени обучения 2 часа с 10-кратной перекрестной проверкой. В DataRobot мы используем тот же набор функций и работаем в режиме автопилота.

Для регрессии мы используем R2, RMSE и MAE для сравнительного анализа. Результаты для каждого из наборов данных перечислены ниже:

Задача 1. Прогноз продаж на неделю, набор данных: Продажи в Walmart.

Задача 2: прогнозирование ценности жизненного цикла клиента, набор данных: Данные о ценности клиента IBM Watson Marketing

Задача 3.Спрогнозируйте показатель склонности клиентов, набор данных: Склонность клиентов к покупке

Задача 4:Спрогнозировать цену мобильной связи, набор данных: Цены мобильной связи.

Задача 5. Прогнозировать рейтинги фильмов, набор данных: Сериалы и фильмы Netflix.

Для классификации мы используем AUC для бинарной классификации и Accuracy/Balanced Accuracy для мультиклассовой классификации. Результаты для 5 наборов данных представлены ниже:

Задание 1.Предсказать, превышает ли индивидуальный доход 50 000 долларов США, набор данных: Доход UCI.

Задача 2.Прогнозировать дефолты по кредитным картам, набор данных: Дефолты клиентов по кредитным картам

Задача 3.Прогнозирование оттока клиентов, набор данных: IBM Telco Churn

Задание 4:Классификация наркотиков, набор данных: Лекарство200

Задача 5:Прогнозировать маркетинговые ответы, набор данных: Маркетинговые ответы банка.

Результаты показывают, что модели Actable AI работают лучше, чем DataRobot Autopilot (статистически проверено) в большинстве случаев, за исключением набора данных IBM Telco Churn. Мы подозреваем, что в этом случае у DataRobot Autopilot есть умный способ преобразовать геопространственные столбцы в полезные функции.

С Actable AI можно увеличить лимит времени обучения для достижения лучших результатов. DataRobot также имеет комплексный режим. Мы сообщим о другом тесте для наших моделей Actable AI без ограничения времени обучения и комплексного режима DataRobot в другом блоге.

Этот тест предназначен для приблизительного сравнения наших режимов AutoML и DataRobot Autopilot. Это ни в коем случае не исчерпывающее сравнение, и результаты могут отличаться в зависимости от характера входных данных.