Хотя анализировать многомерные данные очень сложно. t-SNE (t-распределенное стохастическое соседнее встраивание) дает нам способ уменьшить нашу размерность с n-D до 2-D для визуализации.
t-SNE был разработан Лоренс ван дер Маатенс и Джеффри Хинтон в 2008 году.
Как работает t-SNE?
Предположим, у нас есть точка X i в любом n-D пространстве. t-SNE пытается сохранить соседей Xi от пространства n-D до пространства n-D ’(D’ - меньшее измерение после уменьшения размерности).
Окрестность - это совокупность точек, которые геометрически наиболее близки к точке X i.
Встраивание - это выбор точки в пространстве более высокой размерности и ее построение в пространстве меньшей размерности.
Геометрическая интуиция
Модель t-SNE заботится только о стойкости соседей. Как вы можете видеть на диаграмме, точки нанесены от d-dim до 2-dim. Теперь точки, которые ближе к x1, также находятся на одинаковом расстоянии в 2-dim, но точки, которые дальше от x1, не обязательно должны быть на одинаковом расстоянии. Точка, которая находится дальше, может быть размещена где угодно, но они должны сохранять свое окружение.
Важные моменты t-SNE
- Шаги или итерации
- Недоумение (в основном это количество точек, которые должны быть по соседству.)
Сосредоточьтесь на этих шагах перед выполнением t-SNE
- Всегда пытайтесь запустить свой код с множеством трудностей.
- Если ваше недоумение равно нет. точек данных это создаст беспорядок.
- Всегда пробуйте свое недоумение ‹Datapoints
Что в основном делает t-SNE
- Расширяет плотные кластерные точки
- Сжимает разреженные кластеры.
ПРИМЕЧАНИЕ. T-Sne не сохраняет расстояние между кластерами
Основной код использования t-SNE
мы реализуем его на наборе данных MNIST
MNIST - это набор данных компьютерного зрения, который содержит изображения рукописных цифр, каждое из которых имеет высоту 28 пикселей и ширину 28 пикселей, всего 784 пикселя.
- Мы импортируем наши важные модули
2. Импорт наших данных
3. Удаление наших ярлыков из данных
4. Теперь сделайте наш столбец набора данных стандартизированным.
5. Построение и использование функции t-SNE.
- n_component - размер встроенного пространства
Вот как недоумение меняет визуализацию
- С недоумением 2 и n_iter = 1000
Это делается только с 1000 точек данных, так как это занимает слишком много времени для 43 000 точек данных
2. С недоумением 50 и n_iter = 1000
3. Теперь наконец с недоумением = 30 и n_iter = 1000
с 43 000 точек данных
Вот так нам проще визуализировать данные 43k с помощью t-SNE.
Заключение
От применения t-SNE разной сложности и нет. итераций мы получаем более стабильные результаты. Это не правило, мы можем делать это только при определенных трудностях или итерациях. Кроме того, это самый простой и кратчайший способ визуализировать это «нет». данных. Хотя на визуализацию уходит много времени. Для получения лучших результатов нам нужно выполнить t-SNE для другого значения недоумения и n-итера.