Независимый компонентный анализ — и почему вы должны знать об этом

Сегодня мы живем в этом современном виртуальном мире, где данные буквально правят и диктуют каждую часть нашей жизни. Ваши рекомендации фильмов и видео на YouTube и Netflix, ваши покупательские привычки и предложения от Amazon, даже поиск в Google, который мы делаем, основаны на огромном количестве данных, которые собираются и обрабатываются. Оставляя в стороне часть аргумента о конфиденциальности, нельзя отрицать, что все эти вещи работают довольно эффективно и немного улучшили качество жизни для нас.

В науке о данных в целом также наблюдается значительный рост интереса как к области. Поскольку все больше и больше людей стекаются, чтобы узнать об этом, вполне естественно, что за последние несколько лет он значительно продвинулся. Наука о данных — чрезвычайно универсальный инструмент, который можно использовать где угодно, если у вас есть достаточные знания о предметной области, в которой вы хотите его использовать. Учитывая все это, вполне естественно чувствовать себя немного не в курсе.

Но не волнуйтесь, в этой статье мы попытаемся объяснить одну из наиболее интересных тем, связанных с наукой о данных и машинным обучением, максимально простым способом.

Что такое ИКА?

Таким образом, анализ независимых компонентов (ICA) — это, по сути, используемый метод, который помогает нам отделить все различные источники от смешанного сигнала, который мы можем получать. Звучит достаточно просто, верно? Это концептуально, но очень сложно реализовать, поскольку сигналы становятся все более и более сложными. Но давайте попробуем сначала понять это на базовом уровне.

Сначала давайте немного рассмотрим анализ основных компонентов (PCA), поскольку он является необходимым условием для изучения ICA. PCA — это процесс, в котором мы преобразуем набор взаимосвязанных переменных в набор некоррелированных переменных. Применение этого в основном наблюдается в таких вещах, как анализ данных, выполняемый для выявления закономерностей, или в моделях прогнозирования в машинном обучении. Это неконтролируемый метод в статистике для изучения взаимосвязей между переменными. Это очень важный инструмент, поскольку он помогает с визуализацией, а также с уменьшением размерности данных. Меньшее количество переменных для работы всегда означает более легкое время.

При попытке использовать ICA нам нужно сначала сгенерировать матрицу оценок основных компонентов с помощью PCA. Затем модель ICA можно обучить и применить к матрице оценок PCA, чтобы выделить различные компоненты. Затем их можно нанести на график по мере необходимости или проанализировать по-разному в зависимости от необходимости.

Техника, используемая для получения этих различных компонентов, очень математическая и на данный момент может быть вне вашей компетенции, если вам достаточно концептуального понимания и того, как она реализована, следующую часть можно пропустить.

Как работает ИКА

Рассмотрим набор исходных сигналов s(t)=(s1(t) + s2(t) + ……sn(t)). Он «смешивается» с использованием матрицы A для получения набора смешанных сигналов. Предположим, что набор смешанных сигналов равен x(t)=(x1(t) + x2(t) + …… ..xm(t)). Обычно в большинстве приложений ICA значение n совпадает со значением m. Если m›n, то систему уравнений можно просто решить традиционным линейным методом. Если n›m, система не определена и не может быть решена никаким линейным методом. Итак, теперь мы имеем: x(t) = A⋅s(t)

Затем это уравнение инвертируется, что дает нам s(t)= [A^(-1)]⋅x(t).

ICA делает именно это. Он разделяет набор смешанных сигналов x(t), находя «матрицу разделения», скажем, B, чтобы получить приблизительное значение исходных сигналов s(t). эм>

Приложения ИКА

Одной из самых классических задач, которая чаще всего используется для объяснения ICA, является проблема вечеринки с коктейлем. Представьте коктейльную вечеринку в зале, полном людей. В комнате разговаривают n человек, то есть в комнате сейчас находится nисточников. Также в комнате есть nмикрофонов, записывающих голосовые сигналы от nисточников. Теперь с записанным звуком с этих микрофонов мы хотим разделить все различные аудиосигналы от каждого источника. Это разложение каждого отдельного сигнала можно выполнить с помощью ICA.

Наряду с этим многие другие области, где он используется,

Обработка изображений

Медицинская визуализация

ЭЭГ-сигналы

Музыка

Мониторинг сейсмической активности

Текстовый анализ

Прогноз акций

И многое другое.

Существует множество способов разделения сигналов, включая PCA. Поэтому возникает вопрос-

В чем разница между ICA и PCA?

Основная цель PCA — уменьшить размерность данных, чтобы избежать проблемы переобучения. ICA в основном ориентирована на разделение сигналов и ничем другим не занимается. PCA также фокусируется на максимизации дисперсии между точками данных. ICA вообще не принимает во внимание дисперсию данных. Принципиальный анализ основан на взаимной ортогональности компонентов, а не на независимости. Прямо противоположным этому является независимый анализ, основанный на взаимной независимости компонентов и не заботящийся об ортогональности.

Ограничения на ICA

Независимые компоненты, полученные в результате анализа ICA, считаются статистически независимыми друг от друга.

Полученные независимые компоненты всегда должны иметь негауссово распределение или ненормальное распределение.

Количество независимых компонентов, которые мы получаем от ICA, также является количеством наблюдаемой смеси сигналов. Следовательно, если использовать его вслепую, мы можем не получить точных результатов.

Заключение

Итак, в заключение, анализ независимых компонентов (ICA) извлекает скрытую информацию из данных путем преобразования набора переменных в другой набор, взаимная независимость которого максимальна. Чтобы достичь этого, он опирается на негауссовость компонентов. Несмотря на то, что PCA и ICA очень похожи, оба они используются для разных задач, а именно для сжатия информации и разделения информации. Большинство приложений ICA сначала используют PCA в качестве этапа предварительной обработки, чтобы упростить вычисления. Этот метод чрезвычайно полезен и находит широкое применение в самых разных областях.

Надеюсь, вы узнали что-то новое из этого блога, и спасибо, что прочитали его!

Еще немного ресурсов-

МЛ | Независимый компонентный анализ — GeeksforGeeks
Необходимое условие: анализ основных компонентов Независимый компонентный анализ (ICA) — это метод машинного обучения для…www.geeksforgeeks.org

МЛ | Анализ основных компонентов (АПК) — GeeksforGeeks
Анализ основных компонентов (АПК) — это статистическая процедура, в которой используется ортогональное преобразование, преобразующее…www.geeksforgeeks.org

Независимый компонентный анализ (ICA)
Поиск скрытых факторов в данныхtowardsdatascience.com

Разделение сигналов — Википедия
Разделение источников, слепое разделение сигналов (BSS) или слепое разделение источников — это разделение набора источников…en.wikipedia. орг