1. Уменьшение размерности пространственно коррелированных данных: пространственный предиктор Envelope(arXiv)

Автор:Пол Мэй, Хоссейн Моради Рекабдарколаи

Аннотация . Уменьшение размерности — важный инструмент для анализа многомерных данных. Конверт предиктора — это метод уменьшения размерности регрессии, который предполагает, что определенные линейные комбинации предикторов несущественны для регрессии. Этот метод может привести к существенному повышению эффективности оценки и точности прогнозирования по сравнению с традиционными оценками максимального правдоподобия и методом наименьших квадратов. Хотя огибающие предикторов были разработаны и изучены для независимых данных, не проводилось никакой работы по адаптации огибающих предикторов к пространственным данным. В этой работе огибающая предиктора адаптирована к популярной пространственной модели для формирования огибающей пространственного предиктора (SPE). Выводятся оценки максимального правдоподобия для SPE, а также асимптотические распределения для оценок с учетом определенных допущений, показывающие, что оценки SPE асимптотически более эффективны, чем оценки исходной пространственной модели. Эффективность предложенной модели иллюстрируется с помощью имитационного моделирования и анализа набора геохимических данных.

2. Неконтролируемое машинное обучение для исследовательского анализа данных спектров передачи экзопланет (arXiv)

Автор :Константин Т. Матчев, Катя Матчева, Александр Роман

Аннотация:Транзитная спектроскопия является мощным инструментом для расшифровки химического состава атмосфер внесолнечных планет. В этой статье мы сосредоточимся на неконтролируемых методах анализа спектральных данных транзитных экзопланет. Мы демонстрируем методы i) очистки и проверки данных, ii) начального исследовательского анализа данных на основе сводной статистики (оценки местоположения и изменчивости), iii) изучения и количественной оценки существующих корреляций в данных, iv) предварительной обработки и линейного преобразования. данные на его основные компоненты, v) уменьшение размерности и многообразие обучения, vi) кластеризация и обнаружение аномалий, vii) визуализация и интерпретация данных. Чтобы проиллюстрировать предлагаемую неконтролируемую методологию, мы используем хорошо известный общедоступный эталонный набор данных синтетических транзитных спектров. Мы показываем, что существует высокая степень корреляции в спектральных данных, что требует соответствующих низкоразмерных представлений. Мы изучаем ряд различных методов такого уменьшения размерности и выявляем несколько подходящих вариантов с точки зрения сводной статистики, основных компонентов и т. д. Мы обнаруживаем интересные структуры в базисе главных компонентов, а именно четко определенные ветви, соответствующие различным химическим режимам нижележащие атмосферы. Мы демонстрируем, что эти ветви могут быть успешно восстановлены с помощью алгоритма кластеризации K-средних полностью без присмотра. Мы выступаем за трехмерное представление спектроскопических данных с точки зрения первых трех основных компонентов, чтобы выявить существующую структуру в данных и быстро охарактеризовать химический класс планеты.

3.Статистическая обработка, разложение Фурье и модальное разложение(arXiv)

Автор:Мигель Альфонсо Мендес

Аннотация: Это конспекты лекций «Статистическая обработка, разложение Фурье и модальные разложения», прочитанных в серии лекций VKI «Основы и последние достижения в измерении скорости изображения частиц и лагранжевом отслеживании частиц». Курс проходил в Институте гидродинамики фон Кармана с 15 по 18 ноября 2021 года. Эта лекция представляет собой экскурсию по обработке данных, полученных с помощью велосиметрии изображений. Это далеко не исчерпывающий обзор области, для которого потребовался бы целый курс сам по себе, цель состоит в том, чтобы предоставить практическое руководство. Это начинается с базовой статистической обработки, кратко рассматривается частотный и модальный анализ и завершается более сложными темами исследований, такими как многомасштабное модальное разложение и нелинейное уменьшение размерности. Охваченный материал должен, как мы надеемся, подтолкнуть новичков к изучению предмета, оставаясь при этом интересным для опытных практиков. Все коды, относящиеся к этой лекции, доступны в репозитории github.

4.SLISEMAP: объяснимое уменьшение размерности (arXiv)

Автор: Антон Бьёрклунд, Ярмо Мякеля, Кай Пуоламяки

Аннотация. Существующие методы объяснения для моделей обучения с учителем «черный ящик» обычно работают путем построения локальных моделей, объясняющих поведение моделей для определенного элемента данных. Можно дать глобальные объяснения, но объяснения могут иметь низкую точность для сложных моделей. Большая часть предыдущей работы над объяснимыми моделями была сосредоточена на проблемах классификации, и меньше внимания уделялось регрессии. Мы предлагаем новый метод многообразной визуализации, SLISEMAP, который одновременно находит локальные объяснения для всех элементов данных и строит двумерную визуализацию пространства модели таким образом, что элементы данных, объясняемые одной и той же моделью, проецируются рядом. Мы предоставляем реализацию наших методов с открытым исходным кодом, реализованную с использованием библиотеки PyTorch, оптимизированной для графического процессора. SLISEMAP работает как с классификационными, так и с регрессионными моделями. Мы сравниваем SLISEMAP с наиболее популярными методами уменьшения размерности и некоторыми методами локального объяснения. Мы приводим математический вывод нашей проблемы и показываем, что SLISEMAP обеспечивает быструю и стабильную визуализацию, которую можно использовать для объяснения и понимания моделей регрессии и классификации черного ящика.

5.Всесторонний обзор методов компьютерного обучения для анализа данных об экспрессии генов в геномике (arXiv)

Автор: Никита Бхандари, Рахи Валамбе, Кетан Котеча, Сатьяджит Кхаре

Аннотация:Методы вычислительного анализа, включая машинное обучение, оказывают значительное влияние на области геномики и медицины. Высокопроизводительные методы анализа экспрессии генов, такие как технология микрочипов и секвенирование РНК, позволяют получить огромное количество данных. Традиционно для сравнительного анализа данных экспрессии генов используются статистические методы. Однако более сложный анализ для классификации и обнаружения генов признаков или выборочных наблюдений требует сложных вычислительных подходов. В этом обзоре мы собираем различные статистические и вычислительные инструменты, используемые при анализе данных микрочипов экспрессии. Несмотря на то, что методы обсуждаются в контексте данных микрочипов экспрессии, они также могут применяться для анализа наборов данных секвенирования РНК или количественной протеомики. Мы специально обсуждаем методы вменения отсутствующих значений (экспрессии гена), масштабирования генов признаков, отбора и извлечения признаков для уменьшения размерности, а также изучения и анализа данных экспрессии. Мы обсуждаем типы пропущенных значений, а также методы и подходы, обычно используемые при их вменении. Мы также обсудим методы преобразования данных и масштабирования функций, а именно. нормализация и стандартизация. Также рассматриваются различные подходы, используемые при выборе и извлечении признаков. Наконец, подробно описаны методы обучения и анализа, включая сравнение классов, прогнозирование классов и обнаружение классов, а также их параметры оценки. Мы описали процесс генерации данных экспрессии генов микрочипов вместе с преимуществами и ограничениями вышеупомянутых методов. Мы считаем, что этот подробный обзор поможет пользователям выбрать подходящие методы в зависимости от типа данных и ожидаемого результата.