Написано: Аллан Кампопиано, Data Scientist в Deepnote

Почти само собой разумеется, что лучшие инструменты машинного обучения написаны для Python. Однако те, кто лучше всего разбирается в данных компании, часто говорят на SQL. Представьте, что они могли бы сделать, если бы машинное обучение было у них под рукой — не в среде Python, а на уровне данных, где они наиболее эффективны.

Объединение инструментов машинного обучения в экосистему Python имеет смысл, если учесть все шаги, необходимые для обучения и тестирования моделей: очистка, преобразование, визуализация и т. д. В машинном обучении задействовано так много итераций, что использование языка программирования для обработки данных кажется необходимым.

Тем не менее, союз Python и машинного обучения, хотя и разумный, имеет недостаток: специалисты по базам данных чаще говорят на SQL, чем на Python. Опрос Stack Overflow 2020 года прекрасно это подтверждает, показывая кластер машинного обучения, основанный на Python, и отдельный кластер, связывающий SQL с технологиями баз данных.

Исходя из этого, если мы предполагаем, что инженеры по данным/аналитике «наиболее близки» к данным своей компании, то почему бы не дать им в руки инструменты, которые раскрывают весь потенциал их знаний в предметной области?

Здесь на помощь приходит MindsDB. MindsDB переносит машинное обучение на уровень данных, именно там, где специалисты по данным работают наиболее эффективно. Мало того, что модели и прогнозы живут вместе с данными компании, весь конвейер машинного обучения управляется с использованием SQL — Python не требуется, но об этом чуть позже… во-первых, посмотрите, как легко вернуть прогноз из обученной модели с помощью MindsDB. В этом случае мы прогнозируем удовлетворенность авиапассажиров:

SELECT satisfaction
FROM mindsdb.satisfaction_model 
WHERE age=47 AND Class='Business' AND gender='Male';

Как видите, MindsDB обеспечивает машинное обучение всего несколькими строками кода. Чтобы использовать MindsDB, вам нужно установить его, настроить несколько вещей и написать немного SQL. Но разве не было бы неплохо просто прыгнуть в блокнот и сразу же поиграть с MindsDB? Мы получили вас.

Поскольку Deepnote — это платформа для обработки данных, предназначенная для объединения команд, инструментов и рабочих процессов, она отлично демонстрирует MindsDB. Это особенно верно, потому что SQL является первоклассным гражданином в Deepnote. Ячейки SQL выглядят и функционируют красиво; чередовать Python и SQL и возвращать кадры данных Pandas из запросов SQL. Мегафункциональная совместимость.

Перейдите к шаблону MindsDB Deepnote прямо сейчас и начните использовать свои знания SQL для машинного обучения.

Если эта статья была вам полезна, пожалуйста, поставьте нам звезду GitHub здесь.