Надеюсь, у вас была освежающая и продуктивная неделя. Если вы прочитали две предыдущие статьи, основы и идея обучения с учителем должны быть запечатлены в вашей памяти.

Не будем останавливаться на достигнутом и продолжим ломать барьеры. Давайте разберемся с концепцией Обучение без учителя.

Прежде чем двигаться дальше, имейте в виду, что обучение без учителя можно разделить на два типа:

1. Кластеризация

2. Ассоциация

Чтобы статья была короткой и простой, здесь будет обсуждаться только кластеризация. Ассоциация будет рассмотрена в отдельной статье.

Википедия определяет термин Обучение без учителя следующим образом:

Неконтролируемое обучение — это ветвь машинного обучения, которое учится на тестовых данных, которые не были помечены, классифицированы или категоризированы.

Если это сложно понять, не волнуйтесь, этот блог существует не просто так.

Неконтролируемое обучение, как следует из названия, не контролируется. Точнее говоря, период обучения не контролируется вашим присутствием. Это аналогично заданию алгоритму некоторых правил и просьбе найти закономерности в новых данных. Но в отличие от контролируемого обучения, когда вы предоставили алгоритму обучения (модели) некоторые данные для обучения; впоследствии запуская прогнозы на новых данных, здесь вы просто предоставляете модели данные без периода обучения. Вы просто ожидаете, что модель будет учиться на новых данных с первого раза.
В целом, при обучении с учителем есть данные для обучения модели, тогда как при обучении без учителя данные для обучения модели отсутствуют.

Чтобы лучше понять разницу между контролируемым и неконтролируемым обучением, попробуйте рассмотреть диаграмму ниже:

На изображении слева показан классический пример классификации. учитывая некоторые точки данных на двумерной плоскости, алгоритм разделяет точки данных с помощью границы. С другой стороны, изображение справа показывает яркий пример задачи обучения без учителя, известной как кластеризация. Поскольку уже существует статья об обучении с учителем, давайте обратим внимание на раздел обучения без учителя.

Еще раз взгляните на картинку ниже,

Представьте случайные точки данных с некоторой степенью разделения между собой. После запуска алгоритма неконтролируемого обучения в наборе данных результатом стал красиво разделенный «кластер» точек данных. Так в чем же было волшебство?

Оказывается, алгоритм был достаточно умен, чтобы идентифицировать и понимать группы данных. Он использовал метрику для анализа сходства между точками данных и, таким образом, сформировал группу. Он четко помечал (раскрашивал) точки данных, указывая на группу, к которой принадлежит каждая точка данных. Умно, а! Это называется кластеризация. По сути, вы пытаетесь сгруппировать похожие данные с помощью какой-то метрики.
Это может показаться вам волшебством, но поверьте мне, это простая математика, подождите, может быть, не все так просто, лол!

Чтобы дать вам дополнительную информацию, вот несколько часто используемых способов кластеризации данных.

1. Кластеризация K-средних.

2. Иерархическая кластеризация.

Они будут рассмотрены в последующих статьях. Тем не менее, вы можете узнать о них больше, если хотите.

А пока присоединяйтесь к революции искусственного интеллекта, совершенствуйте свой разум, улучшайте свою жизнь!

Следующая статья будет посвящена обучению с подкреплением — концепции и терминология!

Расслабьтесь под музыку Chillstep — https://www.youtube.com/watch?v=TDcJJYY5sms