Публикации по теме 'dimensionality-reduction'


t-SNE (встраивание стохастического соседа с t-распределением)
Что такое т-СНЭ? t-SNE — это метод машинного обучения для уменьшения размерности, который помогает вам идентифицировать соответствующие шаблоны. Основным преимуществом t-SNE является способность сохранять локальную структуру. Это означает, грубо говоря, что точки, которые находятся близко друг к другу в многомерном наборе данных, будут иметь тенденцию быть близкими друг к другу на диаграмме. Алгоритм t-SNE моделирует распределение вероятностей соседей вокруг каждой точки. Здесь..

t-SNE с нуля (ft. NumPy)
t-SNE с нуля (ft. NumPy) Получите глубокое понимание внутренней работы t-SNE с помощью реализации с нуля на python. Я обнаружил, что один из лучших способов по-настоящему понять любой статистический алгоритм или методологию — реализовать их вручную. С другой стороны, кодирование этих алгоритмов иногда может занимать много времени и быть настоящей болью, и если кто-то уже сделал это, зачем мне тратить на это свое время — кажется неэффективным, не так ли? Оба пункта справедливы, и я..

О любимых телешоу и почему размерность данных имеет значение
Нестандартное мышление помогает рассматривать проблемы с разных точек зрения и полезно при поиске творческих решений. Следующая головоломка является распространенным примером, используемым, чтобы подчеркнуть эту концепцию: можете ли вы соединить 9 точек ниже всего 4 линиями? Эти точки образуют для нас квадрат или, может быть, 4 маленьких квадрата и большой квадрат, содержащий остальные. Мы обдумываем направления возможных линий, но большинству из нас изначально не удается решить..

Анализ основных компонентов — Расширение Карунена-Лоэва
Уменьшение размеров при распознавании образов PCA-KLE используется для получения характеристик распределения, которые лучше всего представляют образцы сигналов. Он выявляет закономерности в данных, выражая эти данные таким образом, чтобы подчеркнуть их сходства и различия. PCA-KLE уменьшает количество измерений данных за счет «сжатия» данных (это облегчает визуализацию скрытого шаблона данных). Чтобы выполнить сжатие, собственные векторы и собственные значения вычисляются и..

Глубоко внутри: автоэнкодеры
Автоэнкодеры (AE) - это нейронные сети, которые стремятся копировать свои входы на свои выходы. Они работают, сжимая входные данные в представление скрытого пространства , а затем реконструируя выходные данные из этого представления. Такая сеть состоит из двух частей: Кодировщик : это часть сети, которая сжимает входные данные в представление в скрытом пространстве. Он может быть представлен функцией кодирования h = f (x) . Декодер: эта часть предназначена для..

Методы выбора признаков в машинном обучении
Столкнулись с проблемами переобучения и низкой точности? Выбор функций приходит на помощь Уменьшение размерности Снижение размерности — это процесс сокращения набора доступных функций в наборе данных. Модель нельзя применить ко всему набору признаков напрямую, что может привести к ложным прогнозам и проблемам обобщения, что, в свою очередь, сделает модель ненадежной. Для предотвращения этих проблем применяется уменьшение размерности. Необходимость уменьшения размерности..

Основные проблемы наборов данных машинного обучения: часть 3
И как с ними бороться Примечание. Это третья часть серии статей Основные проблемы наборов данных машинного обучения . Вы можете прочитать часть 1 здесь и часть 2 здесь . Несбалансированные данные Несбалансированные данные возникают при неравномерном распределении классов или меток. Например, в задаче обнаружения кредитных карт количество немошеннических транзакций, вероятно, будет намного больше, чем количество мошеннических транзакций по кредитным картам. Баланс..