Введение в алгоритмы машинного обучения на основе экземпляров

При столкновении с широким спектром алгоритмов машинного обучения очевидные вопросы: «Какой алгоритм лучше подходит для конкретной задачи, и какой из них мне следует использовать?»

Ответы на эти вопросы зависят от нескольких факторов, включая: (1) размер, качество и характер данных; (2) доступное вычислительное время; (3) Актуальность задачи; и (4) Что вы хотите делать с данными.

Это один из многих алгоритмов, о которых я писал в предыдущей статье.
В этой части я попытался максимально просто отобразить и кратко объяснить основные алгоритмы (хотя и не все), доступные для задач на основе экземпляров.

Алгоритмы на основе экземпляров:

Эти алгоритмы не выполняют явного обобщения, вместо этого они сравнивают новые экземпляры проблемы с экземплярами, замеченными во время обучения, которые были сохранены в памяти.

· K-ближайший сосед (KNN)

Может использоваться как для задач классификации, так и для задач регрессии. KNN хранит все доступные кейсы и классифицирует новые кейсы большинством голосов своих K соседей. Прогнозы для новой точки данных выполняются путем поиска по всему обучающему набору K наиболее похожих экземпляров (соседей) и суммирования выходной переменной для этих K экземпляров. Например, если мы берем K = 3 и хотим решить, к какому классу принадлежит новый пример, мы рассматриваем 3 ближайших (обычно евклидово расстояние) точки к новому примеру.

Для задач регрессии это может быть средняя выходная переменная:

Некоторые моменты, которые следует учитывать:

Выбирать оптимальное значение для K лучше всего, предварительно изучив данные (вы можете использовать метод локтя).

Это контролируемый алгоритм обучения.

· Обучение векторному квантованию (LVQ)

Разработан как алгоритм классификации. Он способен поддерживать как двоичные (двухклассовые), так и многоклассовые задачи классификации. Обратной стороной K-Nearest Neighbours является то, что вам нужно придерживаться всего набора обучающих данных. LVQ - это алгоритм искусственной нейронной сети, который позволяет вам выбирать, сколько обучающих экземпляров нужно удерживать, и точно изучает, как эти экземпляры должны выглядеть. Значение количества экземпляров оптимизируется в процессе обучения.

Некоторые моменты, которые следует учитывать:

Это контролируемый метод обучения

Если вы обнаружите, что KNN дает хорошие результаты для вашего набора данных, попробуйте использовать LVQ, чтобы уменьшить требования к памяти для хранения всего набора обучающих данных.

· Самоорганизующаяся карта (SOM)

Неконтролируемая модель глубокого обучения, в основном используемая для обнаружения функций или уменьшения размерности. SOM отличается от других искусственных нейронных сетей тем, что применяет конкурентное обучение в отличие от обучения с исправлением ошибок (например, обратное распространение с градиентным спуском) и в том смысле, что они используют функцию соседства для сохранения топологических свойств входного пространства. SOM выполняет топологически упорядоченное отображение из многомерного пространства в двумерное пространство. Другими словами, он создает двумерное представление входного пространства набора обучающих выборок.

Например, давайте посмотрим на набор рукописных цифр. Входные данные для SOM имеют большие размеры, поскольку каждое входное измерение представляет значение в градациях серого одного пикселя на изображении 28 на 28, что делает входные данные 784-мерными (каждое измерение имеет значение от 0 до 255).

Если мы сопоставим их с SOM 20x20 и раскрасим в соответствии с их истинным классом (число от 0 до 9), мы получим следующее:

Истинные классы помечены цветами в левом нижнем углу.

Взгляните на желтую область. Это то место, где были сопоставлены шестерки, и обратите внимание, что есть небольшое совпадение с другими категориями. Для сравнения посмотрите на нижний левый угол, где пересекаются зеленая и коричневая точки. Вот где SOM «перепутали» между 4 и 9.

Другой пример SOM - это НЛП. Мы можем использовать его для классификации, скажем, 2 миллионов медицинских работ. SOM создаст кластер схожих по значению слов:

Правые нижние слова относятся к мозгу, а верхние правые слова относятся к медицинской визуализации.

Некоторые моменты, которые следует учитывать:

SOM выводит 2D-карту для любого количества индикаторов.

Мы могли бы использовать SOM для кластеризации данных, не зная принадлежности входных данных к классам.

· Локально-взвешенное обучение (LWL)

Основная идея LWL заключается в том, что вместо построения глобальной модели для всего функционального пространства для каждой интересующей точки создается локальная модель на основе соседних данных точки запроса.

Для этого каждая точка данных становится весовым коэффициентом, который выражает влияние точки данных на прогноз. Как правило, точки данных, которые находятся в непосредственной близости от текущей точки запроса, получают более высокий вес, чем точки данных, которые находятся далеко. По сути, предположим, что вы хотите предсказать, что произойдет в будущем. Вы можете просто обратиться к базе данных всего вашего предыдущего опыта, затем взять несколько похожих опытов, объединить их (возможно, с помощью средневзвешенного значения, которое сильнее взвешивает больше похожих опытов) и использовать эту комбинацию, чтобы сделать прогноз.

Некоторые моменты, которые следует учитывать:

LWL методы непараметрические.

До скорого,

Bobcat.