Популярность машинного обучения в США возросла, о чем свидетельствует линия тренда Google Trends за последние пять лет.

Область машинного обучения расцвела во многом благодаря большему разнообразию алгоритмов, что привело к большему выбору моделей, в сочетании с «цунами данных» и повышенным интересом к науке о данных во всех отраслях.

Наиболее распространенным применением машинного обучения является прогнозная аналитика, в которой прогнозируются категориальные (классификация) и числовые (регрессия) результаты.

Хотя машинное обучение часто обрабатывается языками программирования R и Python, в настоящее время доступно несколько программ для машинного обучения. Эти программы варьируются от бесплатных и с открытым исходным кодом до дорогих коммерческих решений. Кроме того, программы машинного обучения охватывают весь спектр от базовой функциональности до AutoML, где цель состоит в том, чтобы автоматизировать весь конвейер машинного обучения, от подготовки данных до моделирования, проверки и производительности. Сегодня доступно множество программ AutoML, таких как Google Cloud AutoML, DataRobot, dotData, H20 Driverless AI, RapidMiner Studio и многие другие.

RapidMiner Studio — это современный AutoML, который сочетает в себе два важных автоматизированных шага — TurboPrep для подготовки, исследования и визуализации данных и AutoModel для моделирования данных. В начале 2020 года RapidMiner выпустил RapidMiner Go, который по сути является AutoModel без какой-либо подготовки или визуализации данных. В отличие от клиентской версии RapidMiner Studio, Go работает в браузере. Go не включает неконтролируемое обучение или обнаружение выбросов, как RapidMiner Studio. Существует бесплатный 30-дневный пробный период, а затем плата составляет 10 долларов в месяц без минимальной подписки.

Цель Go — быстро запустить набор алгоритмов на уже очищенных и изученных данных. Можно загружать файлы .csv или .xlsx. Готовую модель можно скачать и развернуть.

Доступные модели. Для классификации это: наивная байесовская модель, обобщенная линейная модель, большая быстрая маржа, глубокое обучение, логистическая регрессия, дерево решений, случайный лес, деревья с градиентным усилением, и машина опорных векторов (SVM). Для регрессии это: обобщенная линейная модель, глубокое обучение, дерево решений, случайный лес, деревья с градиентным усилением и метод опорных векторов (SVM).

Показатели производительности. Для алгоритмов классификации используются следующие показатели: 1. Точность 2. Ошибки классификации 3. Полнота 4. Точность 5. AUC 6. Прибыль и затраты 7. Построение модели Время. 8. Матрица путаницы. 9. Введите веса. 10. ROC-кривая. Измерения производительности для Регрессии: 1. R в квадрате 2. Среднеквадратическая ошибка 3. Средняя абсолютная ошибка 4. Средняя относительная ошибка 5. Время построения модели.

Метрики для всех алгоритмов сообщаются вместе, что упрощает сравнение производительности. Также представлены глобальные веса, в которых перечислены атрибуты, которые больше всего коррелируют с переменной результата. При изучении каждого алгоритма представлены конкретные веса важности, а также приведенные выше измерения производительности. Для каждой модели представлен симулятор, который позволяет пользователю изменять предикторы, чтобы увидеть, как это влияет на результат. Некоторые модели, такие как логистическая регрессия, отображают бета-коэффициенты и p-значения, в то время как другие перечисляют результаты с графиками плотности и визуально отображают выходные данные дерева решений.

Тесты данных. Я решил проанализировать известный набор данных для прогнозирования сердечно-сосудистых заболеваний (классификация). После загрузки пользователь сначала выбирает столбец, который является результатом (наличие болезни сердца, отсутствие), а затем выбирает интересующий двоичный результат наличия болезни сердца. Затем пользователь просматривает анализ качества, чтобы увидеть, следует ли исключить какой-либо из столбцов, например, на основе высокая корреляция между входной переменной и входной переменной. Если, например, вес и ИМТ сильно коррелированы, то следует исключить один из них, что сделает модель более простой и менее склонной к переоснащению. Следующим шагом является выбор семейства алгоритмов, которые лучше всего подходят для вашего анализа: 1. Легко интерпретируемый будет использовать линейные модели и деревья решений, которые можно быстро и легко объяснить. 2. Быстрое прототипирование использует общие модели. 3. Более высокая точность обеспечивает больше алгоритмов, но требует больше времени выполнения.

Я прогнал модели с использованием всех трех семейств алгоритмов и вот что я обнаружил: 1. Легко интерпретируемый — алгоритмы обобщенной линейной модели, большой быстрой маржи и дерева решений были запущены с выходными показателями производительности для классификации как отмечено выше. Время построения модели составляло 1–5 секунд. 2. Быстрое прототипирование.Использовались алгоритмы обобщенной линейной модели, логистической регрессии и наивного байесовского алгоритма с теми же показателями производительности для классификации, что и ранее. Время построения модели варьировалось от 1,4 до 8,5 секунд. 3. Более высокая точность — были запущены все доступные алгоритмы (9) для классификации. Были зарегистрированы все результаты по умолчанию, а время построения модели варьировалось от 1,2 до 20 секунд.

Ниже приведен скриншот сравнения AUC для всех 9 алгоритмов. Каждый алгоритм и его производительность могут быть индивидуально доступны в левом меню.

Для небольших наборов данных имеет смысл всегда выбирать параметр «Высокая точность». В отличие от RapidMiner Studio здесь нет возможности настраивать алгоритмы (оптимизация гиперпараметров). RapidMiner Go — это быстрое моделирование, при котором вы можете одновременно сравнивать производительность нескольких алгоритмов. Это не AutoML, где несколько шагов в конвейере данных автоматизированы. Если вы знаете, как очищать, исследовать и подготавливать данные для моделирования и ищете недорогой вариант для выполнения классификации и регрессии, это разумный выбор.