Этот блог представляет собой попытку провести аналогию между проблемой моделирования науки о данных (КЛАССИФИКАЦИЯ), решаемой с помощью статистического языка (R, Python), и затем с помощью платформы Analytics от SalesForce с использованием AutoML.

Гражданин Data Scientist - это относительно новый термин, используемый для тех людей, которые используют новейшие расширенные возможности, способные обобщать модели машинного обучения, но не имеют базового опыта в области науки о данных или статистики.

В заголовке здесь специально используется префикс «Academic» по следующим причинам:
›Одноразовая или однократная аналитика› Единая таблица несложный набор данных ›Выполнен стандартный процесс

Также для настройки контекста, немного об автоматическом машинном обучении (Auto ML), конкретно разработанном SalesForce здесь. Здесь важно отметить, что даже в R / Python теперь доступны библиотеки AutoML с открытым исходным кодом; но, опять же, для их использования и, наконец, развертывания требуются существенные знания и усилия по кодированию.

О данных и бизнес-проблемах:

Компания: Провайдер мобильной сети, Набор данных: Сведения о клиенте / потребление, Бизнес-проблема: Отток клиентов

Этапы учебного процесса:

1. Исследование и визуализация данных
2. Подготовка данных (наборы данных для обучения и тестирования)
3. Построение исходной модели (M1) со всеми переменными, включая
4. Модель M1: важность переменных и производительность модели анализ
5. Уточнение модели (M2, M3, ..): изменение гиперпараметров, выбор переменных
6. Модели (M1, M2, ..): сравнение производительности и окончательный выбор модели
7. Окончательно выбранная модель: сообщение результатов

Исследование и визуализация данных:

Подготовка данных (Отдел):

Начальное построение модели со всеми доступными переменными:

Уточнение модели:

Сравнение моделей:

Окончательная интерпретация:

Последние мысли…

Моделирование с помощью Einstein Discovery не требует программирования, значительно экономит время и интуитивно понятно для экспертов, не связанных с наукой о данных.

Однако это не исключает важности знания предметной области и статистической интерпретации результатов модели машинного обучения.