Анализ того, в какой степени БПФ и график повторяемости влияют на точность классификации экзопланет

Что такое экзопланеты и как они обнаруживаются?

Прежде чем перейти к обнаружению экзопланет, я хотел бы сосредоточиться на том, почему так важен поиск экзопланет. Стоит ли искать? Возможна ли жизнь и за пределами нашей солнечной системы - это глубокий вопрос на все времена. Если удастся найти планету, богатую жизнью, это навсегда изменит человечество. Помимо этого, этот вопрос также ответит на самые фундаментальные вопросы о нашем существовании. Здесь на сцену выходит обнаружение экзопланет.

Планета - это тело, состоящее из газа, пыли и т. Д., Вращающееся вокруг звезды. Все планеты за пределами нашей солнечной системы, которые вращаются вокруг звезды, называются экзопланетами. Из-за ослепляющего яркого света звезды экзопланеты трудно обнаружить с помощью только телескопа. Чтобы решить эту проблему, ученые разработали метод обнаружения этих различных планет. Вместо прямого наблюдения за этими планетами в телескопы, что не всегда возможно, они обращают внимание на влияние этих планет на звезды, вокруг которых они вращаются.

Один из способов найти эти планеты - поискать неустойчивые звезды. Звезда, вокруг которой вращается планета, имеет тенденцию колебаться. Это связано с массой вращающейся планеты. С помощью этой техники было открыто множество планет. Но проблема в том, что только массивные планеты, такие как Юпитер, могут оказывать гравитационное воздействие на свою звезду, которое может вызвать колебание звезды. Меньшие планеты, такие как Земля, оказывают меньшее влияние на звезду, что затрудняет обнаружение неустойчивого движения. Тогда как обнаружить меньшие экзопланеты?

Кеплар обнаружил планеты меньшего размера, используя другой метод, называемый «методом транзита». Транзит - это когда планета проходит перед своей звездой и наблюдателем. Из-за этого прохождения происходит небольшое падение интенсивности света, достигающего наблюдателя. Таким образом, делая его менее ярким. Планета, вращающаяся вокруг звезды, будет демонстрировать периодическое падение интенсивности света. Это можно увидеть на рисунке ниже,

Первичное затмение означает падение интенсивности света, достигающего наблюдателя от звезды, из-за препятствия на экзопланете. Таким образом, изучая временной интервал между последовательными транзитами, можно классифицировать, является ли это планетой или каким-то небесным телом. Для этого исследования я использовал результаты аналогичной техники, чтобы классифицировать небесное тело как экзопланету и неэкзопланету.

Извлечение кривых блеска из астрономических данных

Данные временных рядов загружаются с сайта Кеплер. Эти данные имеют расширение .FITS. Гибкая система передачи изображений, также называемая FITS, представляет собой стандартный формат обмена астрономическими данными, не зависящий от аппаратной платформы и программной среды. В Python библиотека ASTROPY используется для чтения астрономических данных. Для обучения загружаются как положительные, так и отрицательные образцы. Загруженные данные содержат многомерный массив с несколькими значениями. Эта таблица различных значений показана ниже,

Из всех этих столбцов SAP_FLUX использовался для обучения модели машинного обучения. Визуализация времени VS SAP_FLUX для положительных и отрицательных данных показана ниже.

Совершенно очевидно, что положительные данные имеют определенную закономерность. Это связано с транзитным движением экзопланеты вокруг звезды. В то время как для отрицательных данных не видно повторяющегося паттерна. Кроме того, в некоторых случаях в отрицательном наборе данных присутствует случайный временной ряд. Данные этого временного ряда обучаются с использованием SVM. Видно, что точность составляет около 52% для простых моделей. Наряду с точностью, отчет о классификации и матрица неточностей представлены для целей оценки. В оставшейся статье обсуждается влияние БПФ и RP как методов предварительной обработки данных временных рядов на точность классификации.

Модель быстрого преобразования Фурье и графиков повторяемости

Быстрое преобразование Фурье преобразует данные из временной области в частотную. Scipy имеет встроенную функцию для преобразования данных потока временных рядов в частотную область. Данные после БПФ можно визуализировать, как показано ниже,

После применения БПФ к данным временного ряда преобразованные данные используются для обучения модели SVM. Результаты после применения БПФ показаны ниже.

Видно, что точность увеличивается почти до 59% с 52% для того же количества точек данных и той же модели. После БПФ результаты оценивались с использованием графика повторяемости.

График повторения - это изображение, полученное из временного ряда, представляющего расстояния между каждой временной точкой. Этот метод можно использовать для повышения точности классификации экзопланет. В Python есть библиотека под названием pyts, которая содержит RecurrencePlot как встроенную функцию. Временной ряд подается в качестве входных данных для функции. Он генерирует изображение в качестве вывода. Изображение графика повторяемости входных данных можно визуализировать, как показано ниже,

Из приведенных выше изображений можно увидеть, что для положительных точек данных, то есть точек данных, для которых Exoplanet истинна, на изображениях сформирован определенный узор. И наоборот, в случае неэкзопланет никакой конкретной закономерности найти нельзя. На изображениях присутствует случайный шум.

После преобразования данных временных рядов в RP эти изображения использовались для обучения модели VGG16. Отчет о классификации после применения RP показан ниже.

Как видно выше, БПФ работает лучше, чем другие методы. Но почему для этого исследования было выбрано БПФ. Причина в том, что в миссии Keplar экзопланеты были обнаружены с использованием метода транзита, как объяснялось в начале этой статьи. Экзопланеты будут показывать периодические падения интенсивности света, достигающего наблюдателя. Если данные представляют экзопланету, данные периодического временного ряда преобразуются в частотную область, что делает структуру более заметной для положительного класса и почти не влияет на отрицательный класс из-за случайного шума. Следовательно, модель ML с предварительной обработкой FFT работает лучше, чем другие методы.

Заключение

  1. Приведенные выше результаты показывают, что точность при обучении данных непосредственно с использованием данных временных рядов составляет 52%.
  2. Когда к данным временного ряда применяется БПФ, точность увеличивается до 59%. Таким образом, при использовании тех же исходных данных и той же модели точность увеличивается на 7%. Это связано с методом предварительной обработки (БПФ), применяемым к данным перед обучением модели.
  3. БПФ также работает лучше, чем метод предварительной обработки RP.

Примечание: данных, используемых для обучения, меньше из-за аппаратных ограничений, из-за которых точность находится в диапазоне 50. Если используется больше данных, модель достигает более высокой точности. Тем не менее, подход БПФ работает лучше, чем прямое использование данных временных рядов для классификации экзопланет.

Полный код этой проблемы можно найти на Github.

Ссылки

  1. Асиф Амин, Р. М., Талха Хан, А., Раиса, З. Т., Чистый, Н., Самиха Хан, С., Хаджа, М. С. и Рахман, Р. М. (2018). Обнаружение экзопланетных систем в кривых блеска Кеплера с помощью адаптивной нейронечеткой системы, Международная конференция по интеллектуальным системам (IS) 2018 г., стр. 66-72.
  2. Https://www.sciencedirect.com/science/article/pii/S2213133719300319
  3. Https://spaceplace.nasa.gov/all-about-exoplanets/en/
  4. Https://exoplanets.nasa.gov/search-for-life/why-we-search/

Связаться

Чтобы узнать больше таких историй, связанных с квантовыми вычислениями и машинным обучением, подписывайтесь на меня на Medium. Также загляните в мои Github и Linkedin.