1. Обнаружение скрытых структур с помощью латентного семантического анализа (arXiv)

Автор: Хуан С. Валье-Лиссабоа, Эдуардо Мизраджи.

Аннотация: Латентный семантический анализ (LSA) — хорошо известный метод поиска информации. Он также применялся в качестве модели когнитивной обработки и усвоения значения слова. Эта двойная важность LSA проистекает из его способности модулировать значение слов в зависимости от контекста, успешно справляясь с полисемией и синонимией. Основные причины, по которым этот метод работает, недостаточно ясны. Мы предполагаем, что этот метод работает, потому что он обнаруживает базовую блочную структуру (блоки, соответствующие темам) в термине по матрице документа. В реальных случаях эта блочная структура скрыта из-за возмущений. Мы предлагаем искать правильное объяснение LSA в структуре сингулярных векторов, а не в профиле сингулярных значений. Используя теорию Перрона-Фробениуса, мы показываем, что наличие непересекающихся блоков документов отмечается однородными по знаку элементами в векторах, соответствующих документам одного блока и нулями в других местах. В случае почти непересекающихся блоков теория возмущений показывает, что если возмущения малы, нули в ведущих векторах заменяются малыми числами (псевдонулями). Поскольку сингулярные значения каждого блока могут сильно различаться по величине, их порядок не отражает порядок блоков. Когда нормы блоков схожи, LSA работает нормально, но мы предлагаем, чтобы при разном размере тем обычная процедура выбора первых k единичных троек (k — количество блоков) была заменена методом, который выбирает возмущенные векторы Перрона для каждого блока.

2. Учебное пособие по вероятностному латентно-семантическому анализу (arXiv)

Автор: Лянцзе Хун

Аннотация. В этом уроке я подробно расскажу о том, как формализован вероятностный латентно-семантический анализ (PLSA) и о том, как предлагаются различные алгоритмы обучения для изучения модели.