Чтобы получить общее представление о снижении размерности, сначала прочтите эту статью: Снижение размерности.

  • Почему t-SNE? : PCA сохраняет общую глобальную дисперсию набора данных. но он не сможет зафиксировать локальную дисперсию набора данных. t-SNE помогает фиксировать локальную дисперсию набора данных.
  • t-SNE — метод нелинейного уменьшения размерности.
  • Чтобы выбрать правильный набор методов для построения моделей, сначала мы должны визуализировать данные, а затем попытаться найти структуру данных, если таковая имеется.
  • t-SNE помогает визуализировать данные большого размера в низком измерении.
  • здесь мы пытаемся изучить данные более низкой размерности, чтобы они сохраняли как можно больше информации.
  • В этом методе более важно получить правильное локальное расстояние, чем нелокальное расстояние (точки, которые близки в более высоком измерении, также должны быть близки в более низком измерении).
  • для каждой точки данных X[i] найти вероятность того, что точка данных X[j] является ее соседом. закрыть точку выше будет вероятность.
  • Сначала мы должны найти вероятность выбора X[j] в качестве соседа, если X[i] задано в высокой размерности. Он в основном строит распределение вероятностей для пары более высокого измерения, так что похожим объектам назначается более высокая вероятность, а разным объектам назначается более низкая вероятность.

  • И затем, используя эту вероятность, мы должны найти вероятность выбора X [j] в качестве соседа, если X [i] задано в более низком измерении. Здесь он будет копировать распределение вероятностей более высокой размерности в распределение вероятностей более низкой размерности.

Код Python с библиотекой sklearn