Встраивание t-распределенного стохастического соседа [t-SNE]

Чтобы получить общее представление о снижении размерности, сначала прочтите эту статью: Снижение размерности.

Почему t-SNE? : PCA сохраняет общую глобальную дисперсию набора данных. но он не сможет зафиксировать локальную дисперсию набора данных. t-SNE помогает фиксировать локальную дисперсию набора данных.
t-SNE — метод нелинейного уменьшения размерности.
Чтобы выбрать правильный набор методов для построения моделей, сначала мы должны визуализировать данные, а затем попытаться найти структуру данных, если таковая имеется.
t-SNE помогает визуализировать данные большого размера в низком измерении.
здесь мы пытаемся изучить данные более низкой размерности, чтобы они сохраняли как можно больше информации.
В этом методе более важно получить правильное локальное расстояние, чем нелокальное расстояние (точки, которые близки в более высоком измерении, также должны быть близки в более низком измерении).
для каждой точки данных X[i] найти вероятность того, что точка данных X[j] является ее соседом. закрыть точку выше будет вероятность.
Сначала мы должны найти вероятность выбора X[j] в качестве соседа, если X[i] задано в высокой размерности. Он в основном строит распределение вероятностей для пары более высокого измерения, так что похожим объектам назначается более высокая вероятность, а разным объектам назначается более низкая вероятность.

И затем, используя эту вероятность, мы должны найти вероятность выбора X [j] в качестве соседа, если X [i] задано в более низком измерении. Здесь он будет копировать распределение вероятностей более высокой размерности в распределение вероятностей более низкой размерности.

Код Python с библиотекой sklearn

Встраивание t-распределенного стохастического соседа [t-SNE]

Вопросы по теме