Полное руководство по интеллектуальному анализу данных

Мы живем в эпоху массового производства данных. Если задуматься - практически каждый гаджет или услуга, которые мы используем, создает много информации (например, Facebook обрабатывает около 500+ терабайт данных каждый день). Все эти данные отправляются непосредственно владельцам продуктов, и они могут использовать их для создания лучшего продукта. Этот процесс сбора данных и их понимания называется интеллектуальным анализом данных.

Однако этот процесс не так прост, как кажется. Важно понимать, как, что и почему интеллектуальный анализ данных, чтобы использовать его с максимальной эффективностью.

Что такое интеллектуальный анализ данных?

Интеллектуальный анализ данных - это процесс сортировки данных, чтобы найти что-то стоящее. Если быть точным, добыча данных - это то, что запускает принцип «работай умнее, а не усерднее».

В меньшем масштабе к майнингу можно отнести любую деятельность, которая включает сбор данных в одном месте в некоторой структуре. Например, составление таблицы Excel или резюмирование основных моментов некоторого текста.

Интеллектуальный анализ данных - это все:

обработка данных;
извлекать из него ценную и актуальную информацию.

Цель интеллектуального анализа данных

Существует множество целей, для которых можно использовать интеллектуальный анализ данных. Данные могут быть использованы для:

обнаружение тенденций;
прогнозирование различных результатов;
моделирование целевой аудитории;
сбор информации об использовании продукта / услуги;

Интеллектуальный анализ данных помогает понять определенные аспекты поведения клиентов. Эти знания позволяют компаниям соответствующим образом адаптироваться и предлагать наилучшие услуги.

Большие данные против интеллектуального анализа данных

Скажем прямо:

Большие данные - это большая картина, вопрос что? всего этого.
Data Mining - это крупный план входящей информации, который можно резюмировать как «как?» или "почему?"

Теперь давайте рассмотрим все тонкости операции интеллектуального анализа данных.

Как работает интеллектуальный анализ данных?

Интеллектуальный анализ данных - один из тех процессов, которые можно легко описать на практике. В его действиях нет ничего загадочного.

Поэтапный анализ данных состоит из следующих элементов:

Создание целевых наборов данных. На этом этапе вы выбираете, какие данные вам нужны;
Предварительная обработка. Это основа для последующих операций. Этот процесс также известен как исследование данных.
Подготовка данных. Обычно это означает создание правил сегментирования, очистку данных от шума, обработку отсутствующих значений, выполнение проверки на аномалии и другие операции. Этот этап может также включать дальнейшее изучение данных.
Начало собственно интеллектуального анализа данных. На этом этапе начинает работать комбинация алгоритмов машинного обучения. Давайте рассмотрим их подробнее.

Алгоритмы машинного обучения интеллектуального анализа данных

В целом, используются следующие типы алгоритмов машинного обучения:

Алгоритмы контролируемого машинного обучения используются для сортировки структурированных данных:

Классификация используется для обобщения известных закономерностей. Затем это применяется к новой информации (например, чтобы классифицировать письмо электронной почты как спам);
Регрессия используется для прогнозирования определенных значений (обычно цен, температуры или ставок);
Нормализация используется для сглаживания независимых переменных наборов данных и реструктуризации данных в более связную форму.

Алгоритмы неконтролируемого машинного обучения используются для исследования немаркированных данных:

Кластеризация используется для обнаружения различных паттернов (группы AKA, структуры AKA
Обучение правилу ассоциации используется для определения взаимосвязи между переменными набора данных. Например, какие действия выполняются чаще всего;
Обобщение используется для визуализации и отчетности;

Полуконтролируемые алгоритмы машинного обучения представляют собой комбинацию вышеупомянутых методологий;

Нейронные сети - это сложные системы, используемые для более сложных операций.

Теперь давайте посмотрим на отрасли, в которых применяется горная промышленность.

Примеры интеллектуального анализа данных

Электронная коммерция, маркетинг, финансовые услуги - управление взаимоотношениями с клиентами

CRM-системы широко используются в самых разных отраслях - от маркетинга до электронной коммерции, здравоохранения и досуга.

Роль интеллектуального анализа данных в CRM проста:

Чтобы получить информацию, которая обеспечит прочную основу для привлечения и удержания клиентов.
Адаптировать услуги в соответствии с приливами и отливами моделей поведения пользователей.

Обычно алгоритмы интеллектуального анализа данных используются для двух целей:

для извлечения шаблонов из данных;
для подготовки прогнозов относительно определенных процессов;

Управление взаимоотношениями с клиентами основано на обработке больших объемов данных для предоставления наилучших услуг, основанных на достоверных фактах. На нем построены такие CRM, как Salesforce и Hubspot.

Возможности включают:

Анализ корзины (тенденции и привычки пользователей);
Прогностическая аналитика
Прогноз продаж;
Сегментация аудитории;
Обнаружение мошенничества;

электронная коммерция, маркетинг, банковское дело, здравоохранение - обнаружение мошенничества

Как объяснялось в нашей статье о мошенничестве с рекламой, мошенничество - одна из самых больших проблем Интернета. От этого страдает Ad Tech, сильно страдает электронная коммерция, это терроризирует банковское дело.

Однако внедрение интеллектуального анализа данных может помочь более эффективно бороться с мошенничеством. Дело в том, что есть закономерности, которые можно обнаружить и впоследствии заблокировать, прежде чем вызвать хаос.

Этот процесс поддерживается реализацией алгоритмов машинного обучения.

В целом, есть два варианта:

Контролируемое обучение - когда набор данных помечен как «мошенничество» или «отсутствие мошенничества» и алгоритм обучается определять одно и другое. Чтобы сделать этот подход эффективным, вам понадобится библиотека шаблонов мошенничества, специфичных для вашего типа системы.
Обучение без учителя используется для оценки определенных действий (клики по рекламе, платежи). Затем это сравнивается с обычными сценариями и определяется как мошенничество.

Вот как это работает в разных отраслях:

В Ad Tech обнаружение мошенничества на основе интеллектуального анализа данных сосредоточено на аномальных и подозрительных моделях поведения. Такой подход эффективен против мошенничества с кликами и трафика.
В финансах интеллектуальный анализ данных может помочь выявить манипуляции с отчетами с помощью правил связывания. Кроме того, модели прогнозирования могут помочь в борьбе с мошенничеством с кредитными картами.
В сфере здравоохранения интеллектуальный анализ данных позволяет бороться с манипуляциями, связанными с мошенничеством в сфере медицинского страхования.

Маркетинг, электронная коммерция - сегментация клиентов

В основе любой бизнес-операции лежит знание своей целевой аудитории. Интеллектуальный анализ данных выводит сегментацию клиентов на совершенно новый уровень точности и эффективности. Вы когда-нибудь задумывались, откуда Amazon знает, что вы ищете? Вот как.

Сегментация клиентов одинаково важна для работы рекламных технологий и для маркетологов электронной коммерции. Использование клиентом продукта или взаимодействие с рекламным контентом предоставляет большой объем данных. Эти фрагменты данных показывают клиентов:

Интересы;
Тенденции и предпочтения;
Потребности;
Привычки;
Общие модели поведения.

Это позволяет строить более точные сегменты аудитории, основываясь на практических аспектах, а не на демографических аспектах. Лучшая сегментация ведет к лучшему таргетингу, а это приводит к большему количеству конверсий, что всегда хорошо.

Подробнее об этом вы можете прочитать в нашей статье о пользовательском моделировании.

Здравоохранение - Анализ исследований

Исследовательский анализ, вероятно, является наиболее прямым применением операции интеллектуального анализа данных. В целом, этот термин охватывает широкий спектр различных операций, связанных с исследованием данных и определением их функций.

Каким бы общим это ни было звучание, он используется для разработки решений и построения повествований на основе имеющихся данных. Например, для построения графика и развития вспышки заболевания.

Роль интеллектуального анализа данных в этом процессе проста:

Очистка объемов данных;
Обработка наборов данных;
Добавление результатов к общей картине.

Ключевой техникой в данном случае является распознавание образов.

Другое использование интеллектуального анализа данных в исследовательском анализе - для целей визуализации. В этом случае инструменты используются для повторения имеющихся данных в более понятных и презентабельных формах.

Электронная коммерция - Анализ рыночной корзины

Современный маркетинг электронной коммерции построен на изучении поведения пользователей. Он используется для улучшения качества обслуживания клиентов и получения максимальной отдачи от каждого клиента. Другими словами, он использует пользовательский опыт, чтобы сохранить качество обслуживания клиентов.

Все это достигается за счет обширного интеллектуального анализа данных.

Анализ рыночной корзины используется:

Чтобы сгруппировать определенные элементы в определенные группы;
Чтобы нацелить их на пользователей, которые покупали что-то из определенной группы.

Другой элемент уравнения - дифференциальный анализ. Он выполняет сравнение определенных сегментов данных и определяет наиболее эффективный вариант. Например, самая низкая цена по сравнению с другими торговыми площадками.

Результат дает представление о потребностях и предпочтениях клиентов и позволяет соответствующим образом адаптировать окружающий сервис.

Бизнес-аналитика, маркетинг - прогнозирование / прогнозная аналитика

Понимание того, что ждет ваш бизнес в будущем, имеет решающее значение для эффективного управления. Это ключ к принятию правильных решений в долгосрочной перспективе.

Вот для чего нужна прогнозная аналитика. Жизнеспособные прогнозы возможных результатов могут быть реализованы с помощью комбинации контролируемого и неконтролируемого алгоритмов. Применяемые методы:

Регрессионный анализ;
Классификация;
Кластеризация;
Правила ассоциации.

Вот как это работает: существует ряд факторов, имеющих решающее значение для вашей работы. Обычно он включает данные сегментации, связанные с пользователем, а также показатели производительности.

Эти факторы связаны с бюджетом рекламной кампании, а также с целевыми показателями. Это позволяет рассчитать множество возможных результатов и наиболее эффективно спланировать кампанию.

Бизнес-аналитика, HR-аналитика - Управление рисками

Процесс принятия решений зависит от четкого понимания возможных результатов. Интеллектуальный анализ данных часто используется для оценки рисков и прогнозирования возможных результатов в различных сценариях.

В случае бизнес-аналитики это обеспечивает дополнительный уровень для понимания возможностей различных опций.

В случае HR Analytics управление рисками используется для оценки пригодности кандидатов. Обычно этот процесс строится вокруг определенных критериев и оценок (межличностные навыки, технические навыки и т. Д.).

Эта операция выполняется путем составления деревьев решений, которые включают в себя различные последовательности действий. Кроме того, есть несколько результатов, которые могут произойти после их принятия. В совокупности они представляют собой исчерпывающий список плюсов и минусов для каждого выбора.

Анализ дерева решений также используется для оценки соотношения затрат и выгод.

Источник: Statista

Проблемы интеллектуального анализа данных

Объем наборов данных

Хотя для больших данных это может показаться очевидным, но факт остается фактом - данных слишком много. Базы данных становятся все больше, и становится все труднее обойти их каким-либо комплексным образом.

Эффективная обработка всех этих данных представляет собой серьезную проблему, и сама задача состоит из трех частей:

Сегментирование данных - распознавание важных элементов;
Фильтрация шума - исключение шума;
Активация данных - интеграция собранной информации в бизнес-операции;

Каждый аспект этой задачи требует реализации различных алгоритмов машинного обучения.

Конфиденциальность и безопасность

Операция Data Mining напрямую связана с личной информацией. В связи с этим будет справедливо сказать, что проблемы конфиденциальности и безопасности представляют собой большую проблему для Data Mining.

Легко понять почему. Учитывая историю недавних утечек данных, существует определенное недоверие к какому-либо сбору данных.

В дополнение к этому, существуют строгие правила использования данных в Европейском Союзе из-за GDPR. Они переворачивают процесс сбора данных с ног на голову. Из-за этого до сих пор неясно, как сохранить баланс между законностью и эффективностью при операции интеллектуального анализа данных.

Если задуматься, интеллектуальный анализ данных можно рассматривать как форму наблюдения. Он имеет дело с информацией о поведении пользователей, привычках потребления, взаимодействии с рекламным контентом и так далее. Эту информацию можно использовать как во благо, так и во вред. Разница между майнингом и слежкой заключается в цели. Конечная цель интеллектуального анализа данных - улучшить качество обслуживания клиентов.

В связи с этим важно сохранить всю собранную информацию в безопасности:

от кражи;
от изменения или модификации;
от доступа без разрешения.

Для этого рекомендуются следующие методы:

Механизмы шифрования;
Различные уровни доступа;
Последовательные аудиты сетевой безопасности;
Персональная ответственность и четко определенные последствия совершения преступления.

Набор для обучения данных

Чтобы обеспечить желаемый уровень эффективности алгоритма - набор обучающих данных должен соответствовать причине. Однако это легче сказать, чем сделать.

На то есть несколько причин:

Набор данных не является репрезентативным. Хорошим примером этого могут быть правила диагностики пациентов. Должен быть широкий выбор вариантов использования с различными комбинациями, чтобы обеспечить необходимую гибкость. Если правила основаны на диагностике детей, применение алгоритма к взрослым будет неэффективным.
Граничные регистры отсутствуют. Граничные регистры означают детальное различение того, что есть одно, а что другое. Например, разница между столом и стулом. Чтобы различать их, система должна иметь набор свойств для обоих. Вдобавок к этому должен быть список исключений.
Недостаточно информации. Для достижения эффективности алгоритму интеллектуального анализа данных необходимы четко определенные и подробные классы и условия объектов. Расплывчатые описания или обобщенная классификация могут привести к значительному беспорядку в данных. Например, окончательный набор признаков, которые отличают собаку от кошки. Если атрибуты слишком расплывчаты - оба попросту попадут в категорию «млекопитающее».

Точность данных

Другой большой проблемой интеллектуального анализа данных является точность самих данных. Чтобы считаться полезными, собранные данные должны быть:

полный;
точный;
надежный.

Эти факторы влияют на процесс принятия решений.

Есть алгоритмы, призванные сохранить его в целости и сохранности. В конце концов, все зависит от вашего понимания того, какая информация вам нужна для каких операций. Это позволит сосредоточить внимание на самом главном.

Шум данных

Одна из самых больших проблем, возникающих при работе с большими данными и интеллектуальным анализом данных, в частности, - это шум.

Шум данных - это все, что не представляет ценности для бизнес-операций. Таким образом, он должен быть отфильтрован, чтобы основные усилия были сосредоточены на ценных данных.

Чтобы понять, что такое шум в вашем случае - нужно четко определить, какая информация вам нужна. Это составляет основу алгоритмов фильтрации.

В дополнение к этому есть еще две вещи, с которыми нужно иметь дело:

Поврежденные значения атрибутов;
Отсутствуют значения атрибутов.

Дело в том, что эти факторы влияют на качество результатов. Будь то прогноз или сегментирование - обилие шума может помешать операции.

В случае искажения значений - все зависит от точности установленных правил и обучающего набора. Поврежденные значения происходят из-за неточностей в обучающем наборе, что впоследствии приводит к ошибкам в фактической операции интеллектуального анализа данных. В то же время действительно стоящие значения могут рассматриваться как шум и отфильтровываться.

Отсутствующие значения атрибутов возникают, когда некоторые значения были пропущены в обучающем наборе. Хотя эта информация все еще доступна - она игнорируется алгоритмом майнинга из-за того, что не распознается.

Обе эти проблемы решаются неконтролируемыми алгоритмами машинного обучения, которые выполняют рутинные проверки и переклассификацию наборов данных.

Что дальше?

Data Mining - одна из составляющих более широкой картины, которую можно получить, работая с большими данными. Это один из ключевых приемов ведения современного бизнеса. Предоставляет материал, делающий возможной эффективную работу.

Таким образом, его подходы постоянно развиваются и становятся более эффективными в поиске идей. Удивительно наблюдать за развитием технологий.

Первоначально опубликовано на theappsolutions.com.