Пометьте немаркированные данные с помощью полууправляемого алгоритма распространения меток.

здесь вы узнаете

  • Что такое обучение без учителя?
  • Что такое распространение ярлыков?
  • Как это работает?
  • Реализация Python с использованием sklearn

Полуконтролируемое обучение - это комбинация контролируемого и неконтролируемого обучения.

При обучении с учителем используются помеченные данные для обучения, чтобы узнать взаимосвязь между входными данными и целевой переменной; однако при обучении без учителя используются немаркированные данные для идентификации скрытого шаблона данных во входных данных.

Немаркированные данные легче получить и они менее затратны по сравнению с помеченными данными. Техника полууправляемого машинного обучения направлена ​​на то, чтобы извлечь выгоду из доступности большого объема немасштабируемых данных для улучшения обобщения и производительности модели.

Полу-контролируемое обучение - это

  • Трансдуктивное обучение: Трансдуктивное обучение направлено на классификацию немаркированных входных данных путем использования информации, полученной из помеченных данных. Он не создает функцию сопоставления между входными данными и целевой переменной и, следовательно, изучает конкретную функцию для входных данных. Пример: машина векторов трансдуктивной поддержки (TSVM), алгоритм распространения меток (LPA)
  • Индуктивное обучение: учится на помеченных данных, а затем прогнозирует немаркированные данные. Он делает выводы на основе наблюдений и изучает общую функцию для сопоставления входных данных с целевой переменной. Пример: традиционный алгоритм обучения с учителем.

Label Propagation и его работа

Распространение меток - это основанный на графах метод преобразования для вывода псевдо-меток для немаркированных данных. Непомеченные точки данных итеративно принимают метку большинства своих соседей на основе помеченных точек данных.

Распространение метки делает несколько предположений.

  • Все классы для набора данных представлены в помеченных данных.
  • Близкие точки данных имеют похожие ярлыки.
  • Точки данных в одном кластере, скорее всего, будут иметь одинаковые ярлыки.

Граф - это структура данных, состоящая из узлов или вершин и ребер. Края представляют отношения между различными объектами.

Распространение меток создает полностью связанный граф, узлы которого представляют собой помеченные и немеченые точки данных.

Ребра между двумя узлами взвешиваются. Чем короче евклидово расстояние между двумя узлами, тем больше будет вес. Больший вес края позволяет этикетке легко перемещаться.

Простое объяснение работы алгоритма распространения меток

  • Всем узлам присвоены программные метки на основе распределения по меткам.
  • Метки узла распространяются на все узлы через Ребра
  • Каждый узел будет обновлять свою метку итеративно в зависимости от максимального количества узлов в его окрестности. Метка узла сохраняется на основе помеченных данных, что позволяет вывести широкий спектр признаков, которые являются ассортативными по краям графа.
  • Алгоритм распространения меток останавливается, когда каждый узел для немаркированной точки данных имеет метку большинства своего соседа или когда достигается определенное количество итераций.

Реализация с использованием sklearn

Здесь мы используем набор данных рака груди из sklearn. Набор данных будет содержать все входные данные, а цель будет содержать как помеченные, так и немаркированные данные.

Непомеченные точки помечены как -1.

Алгоритм распространения метки классифицирует немаркированные данные.

Когда мы изменяем количество точек данных без меток, мы можем увидеть изменение в матрице производительности.

Вывод:

Label Propagation - это полууправляемый алгоритм преобразования на основе графа для маркировки немаркированных точек данных. Алгоритм распространения меток работает путем построения графа сходства по всем элементам входного набора данных. Он работает в предположении, что все точки данных, расположенные рядом друг с другом, будут иметь одинаковые метки. Метки назначаются немеченым точкам данных на основе максимального количества помеченных узлов в их окрестности.

Использованная литература:

Изучение данных с метками и без меток с помощью распространения меток

Немаркированные данные: теперь они помогают, а теперь - нет

Https://en.wikipedia.org/wiki/Transduction_(machine_learning)

Https://stanford.edu/~jugander/papers/wsdm13-blp.pdf

Https://scikit-learn.org/stable/modules/semi_supervised.html#label-propagation