Хотя анализировать многомерные данные очень сложно. t-SNE (t-распределенное стохастическое соседнее встраивание) дает нам способ уменьшить нашу размерность с n-D до 2-D для визуализации.

t-SNE был разработан Лоренс ван дер Маатенс и Джеффри Хинтон в 2008 году.

Как работает t-SNE?

Предположим, у нас есть точка X i в любом n-D пространстве. t-SNE пытается сохранить соседей Xi от пространства n-D до пространства n-D ’(D’ - меньшее измерение после уменьшения размерности).

Окрестность - это совокупность точек, которые геометрически наиболее близки к точке X i.

Встраивание - это выбор точки в пространстве более высокой размерности и ее построение в пространстве меньшей размерности.

Геометрическая интуиция

Модель t-SNE заботится только о стойкости соседей. Как вы можете видеть на диаграмме, точки нанесены от d-dim до 2-dim. Теперь точки, которые ближе к x1, также находятся на одинаковом расстоянии в 2-dim, но точки, которые дальше от x1, не обязательно должны быть на одинаковом расстоянии. Точка, которая находится дальше, может быть размещена где угодно, но они должны сохранять свое окружение.

Важные моменты t-SNE

  1. Шаги или итерации
  2. Недоумение (в основном это количество точек, которые должны быть по соседству.)

Сосредоточьтесь на этих шагах перед выполнением t-SNE

  • Всегда пытайтесь запустить свой код с множеством трудностей.
  • Если ваше недоумение равно нет. точек данных это создаст беспорядок.
  • Всегда пробуйте свое недоумение ‹Datapoints

Что в основном делает t-SNE

  1. Расширяет плотные кластерные точки
  2. Сжимает разреженные кластеры.

ПРИМЕЧАНИЕ. T-Sne не сохраняет расстояние между кластерами

Основной код использования t-SNE

мы реализуем его на наборе данных MNIST

MNIST - это набор данных компьютерного зрения, который содержит изображения рукописных цифр, каждое из которых имеет высоту 28 пикселей и ширину 28 пикселей, всего 784 пикселя.

  1. Мы импортируем наши важные модули

2. Импорт наших данных

3. Удаление наших ярлыков из данных

4. Теперь сделайте наш столбец набора данных стандартизированным.

5. Построение и использование функции t-SNE.

  • n_component - размер встроенного пространства

Вот как недоумение меняет визуализацию

  1. С недоумением 2 и n_iter = 1000

Это делается только с 1000 точек данных, так как это занимает слишком много времени для 43 000 точек данных

2. С недоумением 50 и n_iter = 1000

3. Теперь наконец с недоумением = 30 и n_iter = 1000

с 43 000 точек данных

Вот так нам проще визуализировать данные 43k с помощью t-SNE.

Заключение

От применения t-SNE разной сложности и нет. итераций мы получаем более стабильные результаты. Это не правило, мы можем делать это только при определенных трудностях или итерациях. Кроме того, это самый простой и кратчайший способ визуализировать это «нет». данных. Хотя на визуализацию уходит много времени. Для получения лучших результатов нам нужно выполнить t-SNE для другого значения недоумения и n-итера.