Многие компании заинтересованы в развертывании машинного обучения, прогнозной аналитики или искусственного интеллекта, чтобы получить преимущество и принять правильные решения. Это может быть проблемой, поскольку найти подходящую технологию и надежных экспертов - это дорого и сложно. Даже когда технология предоставляется, развертывание машинного обучения также занимает много времени: каждый раз пробует разные варианты и начинается заново, встреча за встречей.

Одним из решений может быть автоматизация всего процесса обработки данных (CRISP-DM) от считывания данных до окончательного развертывания. Не нужны дорогие специалисты и их время. Всего лишь один инструмент для обучения, тестирования и развертывания моделей из причудливого пользовательского интерфейса. Такие решения уже доступны в той или иной форме и сопровождаются неизбежными дебатами.

С одной стороны, сторонники полностью автоматизированных циклов науки о данных настаивают на том, что такой инструмент должен автоматически получать доступ к данным, очищать их и подготавливать их, а затем обучать и тестировать предварительно выбранную модель машинного обучения, возможно, оптимизировать ее гиперпараметры. и, наконец, развернуть наиболее эффективную модель.

С другой стороны, есть отрицатели автоматизации, которые настаивают на том, что процесс анализа данных требует экспериментов и ручной экспертной помощи на всех этапах: исследование данных; очистка и подготовка данных; выбор наиболее подходящей модели машинного обучения из ряда различных алгоритмов и архитектур машинного обучения, возможно, даже после реализации, сравнения и комбинирования некоторых из них; необязательная оптимизация гиперпараметров; простое тестирование и / или тестирование, основанное на методах повторной выборки с помощью определенных показателей ошибок; результаты исследования для обнаружения инсайтов или возможных ошибок в процессе проектирования; и окончательное развертывание одной или нескольких обученных моделей.

Что вы в этой дихотомии?

На самом деле, некоторые проекты в области науки о данных могут выиграть от полной автоматизации, в то время как другим требуется постоянный опыт и исследования, чтобы определить лучшее решение. Однако большинство проектов в области науки о данных находится посередине: несколько этапов можно удобно автоматизировать, в то время как другие требуют вмешательства специалиста. Было бы неплохо иметь возможность ввести несколько стратегически расположенных точек взаимодействия на протяжении всего процесса анализа данных. Мы называем этот подход Управляемая автоматизация, поскольку он автоматизирует большую часть процесса, но все же позволяет некоторое взаимодействие опытному пользователю.

Точка взаимодействия - это способ взаимодействия эксперта с приложением и уточнение или изменение направления процесса обработки данных. В конце концов, мы не все разбираемся во всем. Предоставление конечному пользователю возможности использовать свой конкретный опыт в стратегических точках процесса может принести только пользу конечному результату.

Окончательное приложение для анализа данных могло запускаться из веб-браузера; точками взаимодействия могут быть веб-страницы, на которых приложение останавливается и ожидает ввода от опытного пользователя.

В KNIME Analytics Platform вы можете стратегически размещать специальные узлы в своих рабочих процессах обработки данных и анализа данных. Эти специальные узлы создают веб-страницы в качестве точек взаимодействия при запуске рабочего процесса в веб-браузере. Таким образом, вы можете, например, попросить опытного пользователя разработать более сложную функцию, выбрать модели машинного обучения для обучения или окончательную платформу выполнения, если доступно более одной. Мы называем этот подход - создание веб-страниц в качестве точек взаимодействия для процесса - Управляемая аналитика.

Благодаря управляемой аналитике и управляемой автоматизации весь процесс анализа данных становится более открытым, прозрачным и удобным для пользователя. Вам решать, сколько взаимодействия необходимо и что нужно настроить при автоматическом обучении моделей.

Хотите узнать, как построить такой рабочий процесс? Примите участие в нашем предстоящем выступлении на ODSC East с 30 апреля по 3 мая на тему Обучение управляемой аналитике: создание приложений для автоматизированного машинного обучения.

— — — — — — — — — –

Биография докладчиков:

Паоло Таманьини в настоящее время работает специалистом по обработке данных в KNIME. Паоло имеет степень магистра в области науки о данных и имеет опыт исследований в области методов визуализации данных для интерпретируемости машинного обучения.

[email protected]

Скотт Финчер работает в KNIME, Inc специалистом по анализу данных. Он выступил с несколькими докладами об аналитической платформе с открытым исходным кодом KNIME и с удовольствием помогает другим специалистам по обработке данных в оптимизации и развертывании их моделей. До своей работы в KNIME он почти 20 лет работал консультантом по окружающей среде, уделяя особое внимание численному моделированию атмосферных загрязнителей. Он имеет степень магистра статистики и степень бакалавра метеорологии в Техасском университете A&M.

[email protected]

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.