В настоящее время я работаю над последним проектом своего иммерсивного курса по науке о данных. Я решил сравнить методы обнаружения планет, используя данные об уровне света, исходящем от звезд. Я в восторге от этого проекта, потому что есть еще много чего открыть. В настоящее время наиболее успешный метод обнаружения планет - это наблюдение, когда они проходят между своей звездой и нашей точкой обзора здесь, на Земле. Шансы, что у планеты будет такая идеально выровненная орбита, невероятно малы. Но из миллионов и миллиардов звезд на небе мы, маленькие люди, на самом деле обнаружили тысячи планет с помощью этого метода. Мне интересно применять новейшие методы науки о данных и машинного обучения, чтобы увидеть, как простые данные о свете звезд могут быть использованы для открытия новых миров.

Первое, с чем я столкнулся в этом проекте, - это получение правильных данных. Вы не поверите, но на небе много звезд. Если вы пойдете и загрузите все соответствующие данные, которыми располагает НАСА, вам придется загрузить сотни терабайт данных. В таком количестве вы не сможете просто нажать кнопку загрузки и получить все, что вам нужно. Чтобы получить достаточно данных, вам нужно запустить несколько сценариев wget из терминала и перемещаться по необычным типам файлов, которые вы получаете от НАСА. Затем вам нужно покопаться в этих данных, выбрать только ту информацию, которую вы хотите, а затем убедиться, что она находится в подходящем для использования формате. Это также означает, что я не могу анализировать сразу все данные на своем ноутбуке. Поэтому я планирую взять образец этих данных и построить на его основе свою модель.

Когда у меня будет приличный объем данных, я планирую разработать некоторые функции в данных, чтобы обнаруживать провалы в освещении, вызванные вращением планет. Я собираюсь попробовать здесь несколько разных вещей, например, сделать пару скользящих средних уровней освещенности и определить, пересекаются ли скользящие средние с регулярной скоростью. Еще одна вещь, которую я собираюсь попробовать, - это описать разницу в уровнях освещенности и определить, когда свет падает ниже «нормальной» дисперсии. Если это происходит через регулярные промежутки времени, то это будет неплохим показателем того, что там есть планета.

Некоторые препятствия, которые мне придется преодолеть в этом проекте, - это другие факторы, которые могут скрыть сигналы или создать ложные сигналы. Одна из самых важных вещей, на которые мне нужно обратить внимание, - это двойные звездные системы. Они могут создавать ложные колебания света, которые создают сигналы, подобные планете. Эти типы звездных систем на самом деле довольно распространены во Вселенной, и их не всегда легко идентифицировать, если звезды вращаются вокруг друг друга очень близко.

Однажды я открыл новую планету. Я перееду туда и буду править там существами как их законный лидер. И конечно поделитесь своими результатами.