Статистика для упрощения и понимания сложных данных визуализации

При надлежащем изучении и анализе большие наборы данных помогают исследователям наблюдать за изменениями с течением времени или в различных условиях и достигать важных научных открытий. Это также верно для изображений и данных, связанных с сигналами, собранных учеными в различных областях. Профессор Армин Шварцман, работающий в Калифорнийском университете в Сан-Диего, посвятил свою карьеру разработке простых, но эффективных статистических методов для анализа сигналов и изображений, которые могут иметь важное биомедицинское и экологическое применение.

Большая часть данных, собранных учеными, поступает в виде изображений. Сюда входят научные изображения, полученные с помощью медицинских устройств визуализации, таких как аппараты ПЭТ и МРТ, а также изображения, собранные спутниками на околоземной орбите, микроскопами или изображениями, созданными компьютерными моделями. Осмысление этих данных часто может быть мучительной и сложной задачей, требующей использования передовых статистических методов.

Данные визуализации чрезвычайно разнообразны; он может быть двухмерным (2D), трехмерным (3D). Это может быть еще более сложно, например, изображение небесной сферы на извитой поверхности мозга. Даже геном человека с его линейной структурой можно представить как очень длинное одномерное (1D) изображение, где каждая пара оснований играет роль геномного пикселя. Изображения часто создаются с течением времени, добавляя еще одно измерение к этому богатому и сложному источнику данных. Разобраться в таких сложных данных — огромная задача.

Статистические методы, разработанные профессором Шварцманом, могут значительно упростить анализ данных изображений в различных областях.

Количественная пространственная неопределенность прогнозов изменения климата. На этой карте смоделированной разницы температур между концом 20-го века и серединой 21-го века существует высокая степень достоверности того, что средняя летняя температура повысится более чем на 2 градуса Цельсия внутри красного контура и не увеличится более чем на 2 градуса Цельсия снаружи. красный контур.

Именно здесь на помощь приходят исследования профессора Шварцмана из Калифорнийского университета в Сан-Диего. Его команда разрабатывает сложные математические модели и алгоритмы, которые могут улучшить анализ данных для широкого спектра приложений, начиная от геномики, медицинской визуализации и изучения окружающей среды. мониторинг — обеспечение научного понимания и открытий.

Проблема локализации
Одной из самых сложных проблем, связанных со сложными многомерными данными и изображениями, является точное обнаружение разреженных локализованных истинных сигналов, встроенных в фоновый сигнал, или «шум». Это может быть сигнал, затрагивающий области мозга, где происходит активация в ответ на стимул, или сигнал, следующий за оценкой облученной раковой ткани после лечения.

В глазах статистика задача локализации превращается в крупномасштабное множественное тестирование, в котором каждое место проверяется на значимость. Цель состоит в том, чтобы определить важные области изображения, которые обеспечивают информацию об оптимальном качестве на шумном фоне, чтобы сделать правильные, конкретные выводы об измеряемой величине. Учитывая огромные масштабы поиска в таких больших объемах данных, необходимы строгие пороги обнаружения, чтобы предотвратить слишком много ложных срабатываний. Однако существует опасность того, что это поставит под угрозу способность обнаруживать реальные сигналы.

Структура данных имеет ключевое значение.
Чтобы решить проблему локализации, профессор Шварцман и его команда используют структуру данных. Как говорит Шварцман: «В то время как статистические методы множественного тестирования часто предполагают независимость между тестами, многие реальные ситуации обнаруживают зависимость и лежащую в основе структуру». Возьмем пример человеческого генома с его одномерной структурой внутри каждой хромосомы. Точно так же данные об окружающей среде имеют двухмерную пространственную структуру, а изображения мозга имеют трехмерную пространственную структуру.

Используя преимущества этой структуры зависимости, методы команд облегчают обнаружение и уменьшают количество ложных выводов. Его исследования сосредоточены на разработке статистических методов анализа сигналов и изображений, которые оказались жизненно важными для анализа данных, полученных в биомедицинских и экологических областях. В частности, его команда разрабатывает и эффективно применяет несколько методов тестирования для случайных полей и многомерных данных.

Зависимые данные большого размера
Для 2D- и 3D-изображений команда моделирует значения изображения как гладкое случайное поле. Описывая теорию гладких гауссовских случайных полей, профессор Шварцман объясняет, что «изначально разработанная для моделирования поверхности воды, это прекрасная математическая теория, позволяющая моделировать структуру пространственной корреляции, оценивать коэффициенты ошибок и определять пороги обнаружения». Новизна его работы заключается в том, что такие тесты следует проводить не в каждом наблюдаемом месте, а только на важных интерпретируемых топологических характеристиках изображения, таких как локальные максимумы (точка максимума в заданном диапазоне) наблюдаемых данных.

Обнаружение сигналов с помощью функциональной магнитно-резонансной томографии (фМРТ): послойный монтаж мозга, показывающий статистически значимые области (выделенные цветом), участвующие в социальной когнитивной обработке.

Его исследование применяет эту теорию и адаптирует ее для каждого набора данных. Для 2D- и 3D-изображений была разработана теория для моделирования распределения высот, так что как локализацию, так и вывод можно измерить по наблюдаемым пикам сигнала. Для других наборов данных, таких как одномерный геном, который не является гладким, наблюдаемое распределение тестовой статистики характеризуется корреляцией, чтобы сделать вывод. Для каждого отдельного случая теория корректируется соответствующим образом для решения поставленной практической задачи.

Адаптация одних и тех же инструментов к различным областям
Хотя эти области различны по своей природе, проблемы, над решением которых он работал, имеют схожие характеристики. Профессор Шварцман говорит: «Ключом к их решению является использование математических и статистических инструментов, использующих преимущества структуры и геометрии данных».

Ключом к их решению является использование математических и статистических инструментов, использующих преимущества структуры и геометрии данных.

Для этого Шварцман и его коллеги разработали общую теорию в качестве руководящего принципа, а затем адаптировали свои методы в соответствии с конкретной темой, на которой они сосредоточены. Для анализа некоторых данных требуются более вычислительные подходы, такие как извлечение признаков изображения и инструменты машинного обучения, используемые для характеристики опухолей печени. Команда также разрабатывает программное обеспечение для оценки отступления горных ледников по всему миру на основе изображений Landsat, доступных через Google Earth Engine.

Простые модели для анализа сложных данных
Поскольку сложные алгоритмы требуют специальной подготовки, ключ к успеху команд заключается в том, чтобы сделать эти модели достаточно простыми, чтобы они были доступны для всех ученых. Действительно, профессор Шварцман сотрудничает с исследователями из самых разных областей, что позволяет им делать выводы о конкретных типах сложных данных и выявлять важные закономерности или эффекты.

Профессор Шварцман объединяется с нейробиологами, используя МРТ для определения областей мозга, которые реагируют на стимул; с рентгенологами, использующими КТ для характеристики опухолей печени или ПЭТ для выявления изменений в ответ на противораковую терапию. Работая с климатологами, используя моделирование климата для выявления регионов, где изменение климата может потребовать оперативного вмешательства, и с космологами, пытаясь лучше понять раннюю Вселенную, анализируя снимки космоса. Его статистические модели также используются генетиками, например, для определения того, где мутации связаны с фенотипическими признаками.

Исследования профессора Шварцмана имеют далеко идущие последствия, помогая научному миру открывать, извлекать и понимать информацию, скрытую в изображениях.