Я объяснил об искусственном интеллекте, алгоритмах искусственного интеллекта и регрессии против классификации в моих предыдущих сообщениях —
Давайте посмотрим на разницу между классификацией и кластеризацией в этом посте.
Кластеризация является примером алгоритма обучения без учителя, в отличие от регрессии и классификации, которые являются примерами алгоритмов обучения с учителем. Данные могут быть помечены в процессе классификации, а экземпляры похожих данных могут быть сгруппированы вместе в процессе кластеризации. Если интересующая переменная в выходных данных непротиворечива, то у нас есть проблема регрессии.
Что такое классификация?
Классификация является примером подхода направленного машинного обучения. Методы классификации помогают делать прогнозы о категории целевых значений на основе любых предоставленных входных данных. Существует множество различных видов классификаций, таких как бинарная классификация и многоклассовая классификация. Это зависит от того, сколько классов включено в целевые значения.
Типы алгоритмов классификации
- Логистическая регрессия
- K-ближайшие соседи (KNN)
- Деревья решений
- Случайный лес
- Наивный байесовский
- Машина опорных векторов
Приложения
- Обнаружение нежелательной электронной почты
- Распознавание лица
- Определение вероятности того, что клиент уйдет
- Утверждение банковского кредита
- Классификация контента
- Биометрическая дактилоскопия
- Анализ почерка
- Подтверждение речи
Каковы различные классификаторы и приложения классификации?
Метод классификации применяется для присвоения метки каждому классу, созданному в результате классификации имеющихся данных по заранее определенному количеству категорий. Существуют два вида классификаторов:
- Двоичный классификатор: в этом случае категоризация выполняется с использованием только двух потенциальных результатов, которые соответствуют двум отдельным классам. Рассмотрим, например, классификацию спама и не-спама в электронной почте и так далее.
- Мультиклассовый классификатор: категоризация выполняется с использованием более чем двух уникальных классов в данном случае. Классификация многих видов почв, сегментация музыкальных жанров и т. д. — все это примеры.
Что такое кластеризация?
Кластеризация — пример алгоритма, относящегося к категории неконтролируемого машинного обучения. Его цель — создавать кластеры из коллекций точек данных, обладающих определенными свойствами. В идеальном сценарии точки данных, принадлежащие определенному кластеру, должны иметь схожие характеристики, в то время как точки данных, принадлежащие другим кластерам, должны отличаться друг от друга настолько, насколько это возможно. Мягкая кластеризация и жесткая кластеризация — это две категории, составляющие общую концепцию кластеризации.
Типы алгоритмов кластеризации
- Кластеризация K-средних. Она начинается с создания фиксированного набора из k сегментов, а затем с помощью показателей расстояния вычисляется расстояние, отделяющее каждый элемент данных от центров кластеров различных сегментов. Затем он помещает каждую точку данных в каждую из k групп в зависимости от того, насколько далеко она удалена от других точек.
- Агломеративная иерархическая кластеризация. Кластер формируется путем слияния точек данных на основе показателей расстояния и критериев, используемых для соединения этих кластеров.
- Разделительная иерархическая кластеризация. Она начинается со всех наборов данных, объединенных в один кластер, а затем разделяет эти наборы данных с использованием метрики близости вместе с критерием. Как иерархическую, так и спорную кластеризацию можно рассматривать как дендрограмму, которую также можно использовать для определения оптимального количества кластеров.
- DBSCAN:- Этот подход к кластеризации основан на плотности. Некоторые алгоритмы, такие как K-Means, хорошо работают с кластерами, имеющими разумное расстояние между ними, и создают кластеры сферической формы. DBSCAN используется, когда входные данные имеют произвольную форму, хотя он менее подвержен искажениям, чем другие методы сканирования. Он объединяет наборы данных, которые находятся рядом с большим количеством других наборов данных в пределах заданного радиуса.
- OPTICS: Кластеризация на основе плотности, такая как DBSCAN, использует эту стратегию, но при этом учитывается еще несколько факторов. Однако по сравнению с DBSCAN он имеет большую вычислительную нагрузку. Также создается график достижимости, но он не разбивает наборы данных на кластеры. Это может помочь в понимании кластеризации.
- BIRCH:- Чтобы упорядочить данные по группам, сначала создается их сводка. Сначала он суммирует данные, а затем использует это суммирование для формирования кластеров. Однако он ограничен только работой с числовыми свойствами, которые могут быть выражены в пространстве.
Приложения
- Сегментация рынка основана на предпочтениях клиентов.
- Исследование социальных сетей, которые существуют
- Сегментация изображения
- Механизмы рекомендаций
- Двигатели, которые делают предложения
- Сегментация клиентов и рынка
- Изучение социальных сетей (SNA)
- Кластеризация результатов поиска
- Анализ биологических данных
- Анализ рентгеновских лучей в медицине
- Обнаружение наличия раковых клеток
Каковы различные методы
Можно сказать, что набор элементов, принадлежащих к одному и тому же классу, составляет кластер. Проще говоря, мы можем определить кластер как набор элементов, которые имеют определенные общие характеристики друг с другом. В области машинного обучения процесс анализа, известный как кластеризация, считается очень важным.
Различные методы кластеризации
- Кластеризация на основе секционирования
- Кластеризация на основе иерархической модели
- Кластеризация на основе плотности
- Кластеризация на сетке
- Кластеризация на основе модели
Разница между классификацией и кластеризацией
Итак, я надеюсь, что этот пост в блоге поможет вам провести различие между классификацией и кластеризацией.
Оставайтесь с нами, чтобы узнать больше!