Прогнозное моделирование и AutoML: какого поставщика ИИ выбрать?

Эта статья предоставлена вам командой AI-Compare (www.ai-compare.com). Мы ссылаемся на большое количество решений искусственного интеллекта и предлагаем вам протестировать их напрямую через наш API. В этой статье мы тестируем несколько решений для создания прогнозных моделей для классификации или регрессии с двумя вариантами использования: прогнозирование затрат, связанных с застрахованным (регрессия) и атрибуция или нет банковского кредита (классификация). Приятного чтения!

Вы поставщик решений и хотите интегрировать AI-Compare, свяжитесь с нами по адресу: [email protected]

Задолго до появления термина «искусственный интеллект» математика уже использовалась для анализа числовых данных. Многие компании заинтересовались анализом данных для прогнозирования и оптимизации. Статистические методы, такие как линейная регрессия, использовались давно и во многих областях.

Однако развитие искусственного интеллекта, особенно машинного обучения, демократизировало использование этих статистических методов для формирования алгоритмов обучения для точных и автоматизированных прогнозов.

Регрессия

Модели строятся, например, на основе регрессии для создания модели, позволяющей прогнозировать численные значения (например, продажи, температура, количество людей, которые, как ожидается, посетят мероприятие, и т. Д.).

Эти модели основаны на входной базе данных, которая может быть:

характеристики,
исторические данные (за несколько лет),
выходные данные, соответствующие переменной, которую вы хотите спрогнозировать.

Классификация

Другой тип модели машинного обучения - классификация. Алгоритмы классификации классифицируют человека в соответствии с входными параметрами. Ниже приведены несколько примеров:

прогнозирование породы собаки по характеристикам,
предсказание действительности кредитной заявки,
прогноз погоды (солнечно, пасмурно или дождливо),
прогнозирование рабочего состояния машин и др.

Таким образом, использование машинного обучения (в частности, классификации и регрессии) было демократизировано практически во всех областях: бизнес, погода, финансы, коммерция, маркетинг, промышленность, здравоохранение и т. Д.

Некоторые компании сосредоточивают свои стратегии продаж и управления на алгоритмах машинного обучения.

AutoML:

Успех машинного обучения привел к возрождению специалистов по анализу данных: экспертов в области искусственного интеллекта, которые разрабатывают сложные математические модели и разрабатывают модели для их реализации.

В последнее время многие поставщики ИИ осознали, что опыт, необходимый для использования машинного обучения, является препятствием для его распространения в компаниях. Так появилось автоматическое машинное обучение (AutoML), призванное сделать машинное обучение доступным для наибольшего числа людей, особенно разработчиков, не обладающих математическими знаниями.

AutoML (автоматизированное машинное обучение) позволяет поддерживать и автоматизировать многие шаги в процессе создания модели машинного обучения:

обработка данных (недостающие значения, дубликаты, нормализация)
извлечение этикеток (характеристик)
выбор этикеток
выбор алгоритма и параметров оптимизации

AutoML позволяет компании реализовать проект машинного обучения без опыта специалиста по обработке данных или поставщика услуг в области науки о данных: таким образом, это приводит к резкому снижению стоимости проекта. Более того, весь вопрос производства упрощается тем, что поставщики решений AutoML обеспечивают размещение модели и хранение данных.

Аналогом использования AutoML является размытие используемого алгоритма. Существует эффект «черного ящика», то есть у пользователя мало информации о подробном алгоритме и, следовательно, об объяснении прогнозов.

Очевидно, что использование AutoML не рекомендуется для всех проектов. У AutoML есть некоторые недостатки, которые заставляют использовать собственный алгоритм:

Обратите внимание, что AutoML - тоже не волшебный инструмент. Основная часть работы специалиста по данным, хотя и не связана с математикой и разработкой компьютеров, - это сбор и форматирование данных. Эта утомительная работа может выполняться только вручную и требует деловых знаний (в зависимости от домена приложения), которые AutoML не может предоставить.

Что касается ценообразования, все поставщики предоставляют одинаковые цены:

плата за обучение модели
оплата за развертывание модели в зависимости от: количества данных и / или количества запрошенных ядер

Провайдеры:

Во время нашего опыта работы с AutoML мы представили себя в роли компании, которая хочет использовать машинное обучение для решения проблем прогнозирования затрат и классификации кредитов. Мы олицетворяем компанию без эксперта по ИИ, желающую получить высокий уровень производительности по более низкой цене и без использования поставщика услуг.

Итак, первый вопрос, который приходит в голову: «Какого поставщика выбрать?

Итак, мы выбрали 5 поставщиков решений AutoML:

Таблицы Google Cloud AutoML: https://cloud.google.com/automl-tables
Машинное обучение Amazon AWS: https://aws.amazon.com/fr/machine-learning
Автоматизированное машинное обучение Microsoft: https://azure.microsoft.com/en-us/services/machine-learning/automatedml/
IBM AutoAI: https://www.ibm.com/cloud/watson-studio/autoai
BigML OptiML: https://bigml.com/whatsnew/optiml

Мы протестировали 4 решения от крупнейших поставщиков ИИ на рынке, а также хотели протестировать решение от более мелкого поставщика: BigML Opti ML.

Примеры использования:

Чтобы иметь четкое представление о рынке и различных поставщиках, мы сравнили эти 5 решений в двух разных проектах. Проект классификации и проект регрессии с другими существенными отличиями: размер базы данных, количество входных данных, домен. Поэтому мы будем выполнять эти два проекта, чтобы проанализировать результаты пяти поставщиков, соответственно, по двум проектам.

Пример использования регрессии: расходы на страхование

Первый проект заключается в прогнозировании финансового бремени, которое человек будет представлять для страховой компании. Как страховая компания, цель - оценить стоимость профиля каждого человека по параметрам / характеристикам: возраст, пол, ИМТ, количество детей, курильщик / некурящий, регион. Для этой цели у нас есть база данных из 1 339 человек, состоящая из упомянутых выше входов и выходных данных: сборы (затраты).

Пример использования классификации: проверка кредита

Второй проект направлен на то, чтобы предсказать, следует ли принимать кредит или нет. В этом случае мы ставим себя в положение банка, желающего разработать автоматическую модель для проверки или признания недействительными кредитных заявок. Цель состоит в том, чтобы предсказать да / нет для каждой кредитной заявки в соответствии со следующими параметрами: возраст, профессия, семейное положение, сфера обучения, кредит по умолчанию, средний годовой баланс, жилищный кредит, личный заем, тип контакта, последний месяц контакт в году, продолжительность последнего контакта, количество контактов, установленных во время этой кампании и для этого клиента, количество дней, прошедших с момента последнего контакта с клиентом в предыдущей кампании, количество контактов, установленных до этой кампании и для этого клиента - результат предыдущей маркетинговой кампании.

Как и в первом проекте, набор данных представляет как категориальные, так и числовые данные.

Таким образом, у нас есть база данных из 45 212 человек, состоящая из упомянутых выше входных данных и выходных данных: ответ (да / нет).

Достоинства и недостатки решений:

После осмысления 5 решений для двух различных вариантов использования, появились некоторые различия между решениями в подходе и в использовании.

Прежде всего, процесс доступа к услугам каждого провайдера отличается. В Google вам просто нужно подключиться к консоли, перейти в службу AutoML Tables и создать набор данных. Точно так же вам просто нужно войти в консоль AWS и перейти в Amazon Machine Learning. Случаи Microsoft и IBM более сложны. Для Microsoft необходимо подключиться к порталу Azure, а затем создать новый ресурс машинного обучения. Затем вам нужно войти в Microsoft Azure Machine Learning Studio и создать новую среду выполнения. Процесс не очень интуитивный и довольно трудоемкий.

Получить доступ к AutoML в IBM тоже непросто: подключитесь к Watson Studio, затем создайте новый проект и свяжите эксперимент AutoAI с этим проектом, затем выберите экземпляр Machine Learning (и связанный компьютер). Шаг не кажется сложным в объяснении, но он далеко не интуитивно понятен, когда вы находитесь на платформе.

Использование BigML не представляет никаких сложностей, достаточно подключиться к его панели инструментов, чтобы иметь возможность напрямую построить его модель.

Затем следует этап импорта базы данных. В Google и Amazon первым шагом является сохранение файла .csv в корзине в их облачной службе. Затем его можно легко импортировать после создания источника данных для Amazon.

В Microsoft вам нужно создать набор данных: импортировать файл .csv, просмотреть импортированный набор данных и, в конечном итоге, изменить тип данных. Для IBM вам нужно добавить «актив» в проект, а затем импортировать этот актив в эксперимент AutoAI. Интерфейс BigML просто предлагает импортировать источник данных (наш файл .csv), затем настроить его (настроить столбцы) и импортировать его как набор данных.

Затем, независимо от поставщика, вам нужно будет выбрать целевые данные, то есть столбец, который вы хотите прогнозировать.

Наконец, мы подошли к ключевому этапу процесса: созданию и параметризации обучения модели. Каждый поставщик в разной степени ограничивает или допускает определенные элементы контроля над реализацией модели:

Таблицы Google AutoML оставляют пользователю выбор: либо использовать автоматическое распределение разделения обучения / тестирования, либо выбрать это распределение самому. Затем у пользователя есть разные варианты выбора в зависимости от типа задействованного алгоритма:

Для регрессии пользователь должен будет выбрать параметр оптимизации, на котором будет основана его модель: RMSE (захват самых экстремальных значений с точностью), EAM (экстремальные значения будут иметь меньшее влияние на модель), RMSLE (штрафовать за ошибку). на относительном размере, а не на абсолютном значении: полезно для очень высоких прогнозируемых и реальных значений)
Для классификации пользователь также сможет выбрать параметр оптимизации модели: AUC ROC (различать классы), Logistic Loss (поддерживать высокий уровень точности вероятностей прогноза), AUC кривой точности / отзыва (максимизировать точность / кривая отзыва для класса меньшинства), точность (правильно определенная доля положительных идентификаций), отзыв (правильно определенная доля фактических положительных результатов).

Google предлагает возможность влиять на его настройки, но пользователь может использовать варианты по умолчанию. Как для классификации, так и для регрессии необходимо определить количество узлов дисков, а также можно исключить столбцы из базы данных.

AWS Machine Learning предлагает пользователю две возможности:

По умолчанию: если пользователь выберет эту опцию, то у него будет отчет по обучению по умолчанию, параметры обучения по умолчанию, распределение тестов для обучения / набора данных в 70% / 30%.
Пользовательский: пользователь сможет выбрать максимальный размер модели (соответствующий количеству шаблонов, созданных моделью), количество итераций (количество раз, когда Amazon ML будет анализировать данные для поиска шаблонов), тип. регуляризации (чтобы избежать переобучения).

Пользователь также сможет выбрать, хочет ли он автоматическое разделение обучения / теста (случайное или на последних 30% набора данных) или вручную импортированный набор тестовых данных.

Машинное обучение Microsoft Azure использует алгоритмы Scikit Learn, поэтому создает множество моделей с разными алгоритмами, чтобы найти ту, которая дает наилучшие результаты. Это решение позволяет пользователю напрямую выбирать тип алгоритма, соответствующий набору данных и проблеме: классификация, регрессия или временные ряды (прогнозирование временных рядов).

Можно выбрать основную метрику для оптимизации модели, заблокировать некоторые алгоритмы, выбрать продолжительность обучения, количество одновременных итераций (одновременных моделей). Пользователь также может исключить переменные или выбрать тип проверки (Монте-Карло, перекрестная проверка, разделенная проверка).

IBM Watson AutoAI Experiment предлагает пользователю настройку, довольно близкую к настройке Microsoft. Возможен выбор распределения поезд / тест, а также исключение переменных. Для прогнозирования пользователь может выбирать между: регрессией, двоичной классификацией и многоклассовой классификацией. Кроме того, можно выбрать метрики оптимизации и исключить алгоритмы.

BigML работает очень просто, но обеспечивает меньший контроль над настройками модели. Пользователь может создать распределение поездов / тестов 80% / 20%. Можно выбрать метрику оптимизации модели, присвоить веса различным классам, а также выбрать процентную долю выборок набора данных, которая будет использоваться для построения модели.

Например, IBM и Microsoft предлагают широкий набор настроек для настройки модели. Google предлагает немного меньше настроек, но они хорошо детализированы и очень доступны. BigML предлагает несколько настраиваемых параметров, в то время как Amazon предлагает доступ к различным настройкам: они не очень доступны для начинающих пользователей, у которых нет знаний или опыта, чтобы извлечь выгоду из этих настроек.

Оценка модели:

Оценка модели определяет надежность модели в соответствии с:

критерии эффективности репрезентативные для общего качества модели,
более конкретные критерии в соответствии с потребностями пользователя.

Некоторые метрики являются общими для всех провайдеров: RMSE для регрессии и AUC ROC для классификации. Именно эти показатели мы будем рассматривать при сравнении различных решений.

RMSE - это среднеквадратичная ошибка. Это стандартное отклонение остатков (ошибок прогноза). Остатки - это мера расстояния точек данных от линии регрессии.

Формула:

С участием:

f = прогнозы (ожидаемые значения или неизвестные результаты),
o = наблюдаемые значения (известные результаты)

Кривая AUC - ROC - это показатель эффективности для задач классификации при различных пороговых значениях. ROC - это кривая вероятности, а AUC - это степень или мера разделимости.

Используемая метрика - это площадь под кривой:

С участием:

Google, Microsoft и IBM предоставляют очень всестороннюю оценку с большим количеством показателей и матрицей неточностей для классификации. BigML предоставляет меньше метрик результатов, но этого все же достаточно. С другой стороны, Amazon отображает только одну конкретную метрику: RMSE для регрессии и AUC ROC для классификации. Хотя это самые стандартные показатели, их может быть недостаточно для реальной оценки качества модели в зависимости от проблемы.

Чем ниже RMSE, тем лучше работает модель. Итак, вот: BigML ›IBM Watson› Google Cloud ›Microsoft Azure› Amazon Web Services

Чем ближе к 1 значение AUC ROC (площадь под кривой), тем лучше работает модель. Итак, вот: IBM Watson ›Google Cloud› Microsoft Azure ›Amazon Web Services› BigML

Таким образом, для проекта прогнозирования стоимости страхования BigML будет предпочтительнее. С другой стороны, для проекта прогнозирования кредитной истории BigML имеет низкую производительность, и IBM и Google будут предпочтительнее для этого проекта.

Заключение

AutoML лучше для разработчиков, чем для специалистов по данным, но эти решения все же имеют реальные преимущества.

Для каждого проекта, каждого варианта использования необходим анализ, чтобы оценить характеристики и условия использования каждого решения. В ходе этого исследования было замечено, что каждый случай индивидуален и что мы не можем быть уверены в выборе решения, пока не протестируем несколько решений, доступных на рынке. Некоторые решения могут дать очень плохие результаты, другие - отличные, и эта логика может полностью измениться для другого варианта использования. Более того, в зависимости от проекта приоритет будет отдаваться стоимости, результатам, времени расчета и количеству запросов в секунду или простоте использования и обработки. Это все критерии, которые могут повлиять на решение, и которые позволяют выбрать решение, которое лучше всего подходит для проекта, наиболее подходящее решение.

Именно поэтому в игру вступает наше предложение AI-Compare. Благодаря нашему глубокому опыту использования этих различных решений искусственного интеллекта, мы можем предоставить вам наиболее подходящие рекомендации для вашей проблемы. Не стесняйтесь обращаться к нам, чтобы описать вашу потребность: здесь.

AI-Compare - это SaaS-решение, предоставляющее API, подключенный к крупным (AWS, Google Cloud, Microsoft и т. Д.) И маленьким (Cloudmersive, OCR.Space и т. Д.) Поставщикам искусственного интеллекта. Наше решение позволяет пользователям сравнивать производительность этих поставщиков в соответствии с их данными и использовать их напрямую через наш API, что обеспечивает большую гибкость и упрощает смену поставщика и оптимизацию производительности: Подпишитесь здесь!

Мы также предоставляем консультационные услуги по тестированию искусственного интеллекта, чтобы помочь нашим клиентам выбрать лучшие решения в соответствии с их потребностями и их данными: Свяжитесь с нами

Следуйте за нами в: LinkedIn | Twitter | Facebook!

Прогнозное моделирование и AutoML: какого поставщика ИИ выбрать?

Вопросы по теме