Как перестать быть механическим и сохранить свое инновационное преимущество в науке о данных

В апреле 1972 года газета New York Times опубликовала статью «Рабочие все чаще восстают против скуки на конвейере». Хотя автомобильная промышленность считалась очень инновационной, тип работы был очень механическим и повторяющимся. Причина заключалась в том, что автомобильная промышленность была основана на концепции сборочного конвейера, где люди должны были выполнять последовательность повторяющихся задач каждый день.

Точно так же область науки о данных очень интересна и инновационна, иногда она может стать механической и повторяющейся. Например, когда целью является кластеризация данных, обычно мы склонны использовать алгоритмы «обычных подозреваемых», такие как KMeans или DBScan. Когда дело доходит до прогнозирования, процесс может быть очень механическим и просто следовать последовательности шагов, таких как очистка данных, горячее кодирование, разработка функций, машинное обучение и матрица путаницы.

Постоянное применение одних и тех же алгоритмов и методологий иногда может привести к усталости от науки о данных. Несмотря на то, что наука о данных используется в инновационных целях, усталость от науки о данных может привести к тому, что ваш мозг станет менее инновационным.

Итак, как не стать слишком механическим и избежать работы в стиле сборочного конвейера? Один из способов — проявить творческий подход к алгоритмам. вот несколько примеров

Сначала подумайте о цели, а затем об алгоритмах

Когда вы думаете о кластеризации или сегментации, мы обычно думаем о применении алгоритмов кластеризации, таких как KMeans, DBScan и других, к табличным данным со многими функциями. Однако давайте посмотрим здесь на подход к кластеризации, который отличается от обычного способа сделать это.

Допустим, у вас есть список счетов за покупки в качестве ваших данных. Он имеет три поля: номер счета, код продукта, описание и количество.

Так как же нам кластеризовать эти данные? Сначала нам нужно определиться с целью кластеризации. Одной из полезных целей может быть поиск кластеров или сегментов продуктов, которые продаются вместе. Таким образом, наша тактика для решения этой проблемы может состоять из двух шагов: 1. Найти продукты, которые продаются вместе 2. Найти группу всех продуктов, которые продаются вместе.

Итак, давайте сначала найдем все продукты, которые продаются вместе. Анализ потребительской корзины помогает нам определить, какие продукты продаются вместе. Существуют различные алгоритмы анализа потребительской корзины. Одним из широко используемых алгоритмов анализа потребительской корзины является априорный алгоритм. Результатом этого алгоритма являются пары товаров, которые часто продаются вместе. Вот несколько примеров, основанных на наборе данных счетов за покупки.

ВИНТАЖНАЯ КРУЖКА «ЛЮБОВЬ/НЕНАВИСТЬ» ДЛЯ БИЛБОРДА — & — EDWARDIAN PARASOL RED

БЕЛЫЙ ВИСЯЩИЙ СЕРДЦЕ T-LIGHT ДЕРЖАТЕЛЬ — & — БЕЛЫЙ МЕТАЛЛИЧЕСКИЙ ФОНАРЬ

Итак, теперь, когда мы определили продукты, которые продаются вместе, следующим шагом будет поиск кластеров таких продуктов. Для этого мы можем черпать вдохновение из теории графов, или иногда также называемой теорией сетей. Мы можем думать о каждом продукте как о узле. И если они были проданы вместе, мы можем создать границу между продуктами (узлами). График может быть визуализирован, как показано здесь, для нескольких самых продаваемых продуктов.

Мы можем ясно видеть некоторые кластеры продуктов в этой визуализации. Кроме того, для извлечения этих кластеров можно использовать графовые алгоритмы, такие как алгоритм модульности.

Итак, как мы видели, мы можем выполнять кластеризацию с помощью априорных и графовых алгоритмов. Когда вы думаете о кластеризации, вы не должны автоматически использовать KMeans, DBScan или другие подобные алгоритмы. Следует подумать о цели кластеризации, а затем решить, какие алгоритмы использовать.

Попробуйте найти разные способы сделать одно и то же

Один из способов избежать повторяющейся работы и сохранить остроту инноваций — посмотреть на проблему под другим углом. Чтобы проиллюстрировать это, возьмем в качестве примера автомобильный набор данных. Этот автомобильный набор данных имеет различные технические характеристики автомобилей.

Допустим, наша цель — найти ковариацию между всеми признаками. Одна из первых вещей, которые приходят в голову, — применить алгоритм ковариации между всеми признаками. Повторное применение одного и того же алгоритма всегда приводит к тому, что вы теряете инновационное преимущество.

Итак, что может быть другим способом найти ковариацию. Одним из таких способов является PCA (анализ основных компонентов). Хотя целью алгоритма PCA является уменьшение размерности, он основан на поиске различий между функциями. Элементы с наибольшими вариациями используются для уменьшения размерности. В качестве побочного продукта этого алгоритма вы также получаете функции с положительной ковариацией, а также с отрицательной ковариацией.

Здесь показан график между функциями и их влиянием (или собственными значениями) на первый главный компонент. Можно сделать вывод, что ширина, длина, высота имеют положительную ковариацию и положительно коррелируют. И что мили на галлон, обороты в минуту имеют отрицательную ковариацию и отрицательно коррелируют

Здесь мы видим, что можем решить проблему с другим подходом. Это также помогает нам понять, как связаны разные алгоритмы. Как только вы разовьете это представление об отношениях и сходствах между алгоритмами, вы сможете начать подходить к проблеме с разных сторон. Это выведет вас на новый уровень инноваций в науке о данных.

Используйте глубокое обучение не как конечный результат, а как источник данных

Сколько раз мы видели эти зеленые прямоугольники на изображениях после выполнения алгоритмов YOLO. Когда несколько лет назад YOLO представили специалистам по данным, это было очень весело и захватывающе. Было много специалистов по данным, которые использовали YOLO для идентификации объектов на различных изображениях и видео. Однако сейчас простое использование YOLO для идентификации объектов стало очень механическим. Все эти зеленые ящики не волнуют специалистов по данным, так как они использовали их несколько лет назад.

Глубокое обучение является очень инновационным и передовым. Но способ его использования стал очень механическим. Один из способов сохранить его инновационное использование — думать о глубоком обучении как об источнике данных. Представьте, что у вас есть видеоанализ движения людей в розничном магазине. Мы можем использовать алгоритмы глубокого обучения для идентификации людей, как показано в примере ниже. Примеры иллюстрируют идентификацию людей в аэропорту или в розничном магазине.

Что теперь, если рассматривать вышеприведённое как результат не как end , а как источник данных. YOLO может помочь в обнаружении объекта, но также дает информацию о местоположении объекта. Таким образом, результат YOLO можно затем передать в другой алгоритм, такой как анализ пути. Мы можем анализировать движение людей. Мы можем использовать его для поиска зон в розничном магазине или аэропорту, где много движения, и зон, которые не очень загружены. Мы также можем найти траекторию, по которой обычно идут люди. Как и в розничном магазине, мы можем узнать, какие зоны посещаются до прихода к кассе, а также покупатели, которые не проходят через кассы.

Как показано ниже, анализ пути зон, посещенных в розничном магазине.

Здесь мы выходим за рамки простого обнаружения объектов и рисования зеленых прямоугольников. Использование алгоритмов глубокого обучения в качестве источника данных поможет вам применить интеллектуальные алгоритмы для достижения бизнес-ориентированных и интересных результатов.

В этой статье мы увидели несколько интересных способов осмысления науки о данных. Используйте эти методы, чтобы не попасть в ловушку механического и конвейерного подхода к науке о данных. Профессия Data Science носит инновационный характер. Так что думайте по-новому, думайте нестандартно и всегда держите свое инновационное преимущество на высоте.

Дополнительные ресурсы

Веб-сайт

Вы можете посетить мой сайт, чтобы сделать аналитику с нулевым кодированием. https://experiencedatascience.com

Пожалуйста, подпишитесь, чтобы быть в курсе, когда я публикую новую историю.



Вы также можете присоединиться к Medium по моей реферальной ссылке.



Канал на YouTube
Вот ссылка на мой канал на YouTube
https://www.youtube.com/c/DataScienceDemonstrated