Некоторые мысли о t-SNE и снижении размерности…

Что такое "уменьшение размерности"?

Когда вы работаете с набором данных, который имеет так много измерений, вам будет трудно найти конкретную связь между каждым из признаков. Да, работать с такими наборами данных сложно, и в большинстве случаев наличие нескольких функций (или размерностей) даже снижает точность ваших моделей обучения из-за переобучения.

В машинном обучении уменьшение размерности используется для извлечения или оставления важных функций данных при одновременном снижении сложности, чтобы можно было отображать многомерные данные в 2D или 3D и предотвращать переоснащение вашей модели.

Вот некоторые методы уменьшения размерности.

1. Устранение функций

Исключить функции из набора данных относительно легко, но будьте осторожны, вы рискуете потерять информацию и не получите пользы от этих удаленных функций.

2. Выбор функции

Ранжирование важности признаков на основе статистических методов. Этот метод также может привести к потере информации и может иметь различное значение, когда вы решаете одну и ту же проблему с разными наборами данных.

3. Извлечение функций

Создайте новую независимую функцию. Эта новая функция создана из комбинации независимых функций вашего набора данных. Этот метод уменьшения размерности разветвляется на линейные методы и нелинейные методы.

Что такое «t-распределение»? и многое другое, что такое t-SNE?

Распределение Стьюдента часто используется при оценке среднего значения совокупности в небольшой выборке (n ‹ 30) и зная, что совокупность похожа на нормальное распределение, но не зная стандартного отклонения совокупности.

Распределение t симметрично относительно нуля, аналогично стандартному распределению Гаусса, но имеет более плоский и длинный хвост, чем стандартное распределение Гаусса. Другими словами, оба хвоста t-распределения имеют гораздо более толстую форму. Причина этого в том, что дисперсия t-распределения больше, чем у стандартного распределения Гаусса.

Распределение Гаусса меняет свою форму через среднее значение и дисперсию. С другой стороны, t-распределение имеет разные формы в зависимости от степеней свободы. Это похоже на распределение хи-квадрат. Он определяется как степени свободы = количество выборок -1. По мере того, как эта степень свободы становится больше, она становится ближе к распределению Гаусса, и обычно, когда степень свободы превышает 30, она очень похожа на распределение Гаусса.

t-распределенное стохастическое встраивание соседей, так называемый метод t-SNE, представляет собой метод сведения многомерных комплексных данных к более низкому, видимому измерению. t-SNE в основном используется для визуализации низкоразмерного пространства, помогая понять структуру данных, поскольку уменьшенная размерность по-прежнему относится к характеристикам исходных данных.

t-SNE — это один из множества методов обучения, и его цель, как упоминалось ранее, — визуализировать сложные данные путем преобразования их в 2D или 3D. С t-SNE аналогичные структуры данных в многомерном пространстве тесно связаны в низкоразмерном пространстве, а разнородные структуры данных по-прежнему соответствуют далеко друг от друга при уменьшении размеров.

x на рисунке выше соответствует существующим данным, распределенным в больших размерностях, y можно рассматривать как низкоразмерные сопоставленные данные через t-SNE. В приведенном выше примере исходные данные являются трехмерными, а размерность уменьшена до двухмерной.

Все пары x представляют сходство с использованием распределения Гаусса.

Как показано на рисунке № 2 выше, t-SNE случайным образом размещает одинаковое количество точек y в низкоразмерном пространстве и выражает сходство x по отношению к его парам (y), используя t-SNE.

На изображении № 3 t-SNE ипдатирует точку данных y, так что распределения подобия, определенные на изображении № 1 и изображении № 2, становятся похожими друг на друга.

На приведенном выше графике сравнивается t-распределение и распределение Гаусса, задав расстояние по горизонтальной оси и сходство по вертикальной оси. Чем ближе расстояние между данными, тем больше сходство, а чем больше расстояние, тем меньше сходство. Во-первых, вычислите сходство как нормальное распределение в исходном многомерном пространстве и обозначьте его как распределение, называемое p. p представляет сходство точек данных x. Затем случайным образом размещены точки данных, представленные здесь как y, соответствующие x в пространстве меньшего измерения. Для y мы вычисляем q, который представляет степень сходства с t-распределением. Вычисление p и q здесь обновляет точку данных y, так что q имеет то же распределение, что и p. Это нужно для того, чтобы воспроизвести каждое отношение сходства x в многомерном пространстве с y в маломерном пространстве. В этом случае, поскольку t-распределение используется в низкоразмерных настройках, точки данных располагаются ближе друг к другу в низкоразмерном пространстве при воспроизведении отношения с высокой степенью подобия. С другой стороны, при воспроизведении отношений с низким сходством точки данных располагаются дальше друг от друга в низкоразмерном пространстве.

Кодирование t-SNE с помощью Python

ссылка на код GitHub

https://github.com/kevchamp333/Util/blob/main/tsne.ipynb

Ссылка на t-sne

https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html

Некоторые мысли о t-SNE и снижении размерности…

1. Устранение функций

2. Выбор функции

3. Извлечение функций

Кодирование t-SNE с помощью Python

Вопросы по теме