Целью этих обновлений является документирование наших исследований по применению современных методов машинного обучения в астрономии. Мы напишем, что работает, а что нет. Мы пишем программное обеспечение по профессии, поэтому мы надеемся, что эти публикации позволят понять, КАК работает современная астрономия и машинное обучение, поскольку мы сами их лучше понимаем.

Если у вас есть какие-либо вопросы о нашей работе, мы будем рады услышать от вас: [email protected]

Как это началось

«Скопление всей проклятой вселенной».

Прошлым летом в начале июля Коул впервые начал распространять эти слова по офису DeepLearni.ng. Мы обсуждали проекты мечты, над которыми нужно работать в области глубокого обучения, и быстрый осмотр комнаты подтвердил наши первоначальные подозрения ... пространство чертовски круто, но как методы глубокого обучения действительно работают в области с такой большой историей? и традиции, стоящие за их инструментарием для анализа данных?

Этот вопрос побудил нас провести следующие несколько месяцев, глубоко погружаясь в космическое пространство и разговаривая с астрономами, чтобы увидеть, есть ли применение любому машинному обучению в астрономии. В конце концов, астрономия - это проблема данных, а данные - это то, что движет машинным обучением.

Что мы делаем?

Цель этого блога - документировать наш прогресс - нефильтрованные истории, код, данные - и то, как машинное обучение и астрономия могут работать вместе, чтобы лучше понять небо над нами. Мы надеемся, что это послужит руководством и мотивацией для того, чтобы вы могли пройти аналогичный путь.

О нас

У нас разный опыт (информатика, веб-разработка, чистая математика), но мы очень увлечены двумя вещами:

1. Космос: это потрясающе, и нам это нравится. Космос заставляет нас задавать важные вопросы, оставляя у нас детское любопытство. У нас нет формального образования в астрономии, но мы летаем в космос, и часть процесса будет изучать науку о нашем небе.

2. Избавьтесь от ажиотажа: нейронные сети не решают всех задач науки о данных. Если наше исследование покажет, что нейронные сети нелегко применить в астрономии, мы задокументируем это. Мы считаем важным показать ценность различных приложений и наборов данных, а также указать на то, где что-то не работает.

Наше первоначальное исследование

Хотя у нас были первоначальные идеи проблем, которые нужно было решить, например, использование новых методов из академического мира для «кластеризации всей проклятой вселенной», мы знали, что должны быть практичными. Это заставило нас подойти к нашему исследованию с вопросом:

Можем ли мы найти реальную, раздражающую проблему в сообществе астрономов, в которой мы можем помочь, применив современные методы машинного обучения?

Когда мы начали наше исследование, мы прекрасно понимали, что нам не хватает астрономических знаний, но, к нашему удовольствию, все астрономы, с которыми мы говорили, были чудесно гостеприимны (разговоры сами по себе будут целым постом!). Мы также знали, что наша глубина понимания будет в лучшем случае поверхностной, поэтому было важно, чтобы астрономы объяснили довольно много технических аспектов астрономии, чтобы мы не застряли на 100-уровневых вопросах. Мы начали со следующего:

Какие инструменты используют современные астрономы (например, компьютерные приложения, языки программирования)?

Мы были поражены, обнаружив, что большая часть астрономического сообщества последовала за движением за открытую науку и использует технологии с открытым исходным кодом - это означает, что мы как дома, имея множество доступных библиотек Python с открытым исходным кодом. В дальнейшем мы опубликуем все эти ресурсы в отдельной публикации.

Мы также обнаружили очень дружелюбное сообщество астрономов, желающих обсудить, как вся область астрономии изменилась за последние десять лет или около того. Короче говоря, данные и открытия выросли в геометрической прогрессии! Достаточно взглянуть на открытия экзопланет за последние 50 лет (и это скоро станет еще более необузданным!)

Данные - одна из важнейших составляющих проблем машинного обучения, так как же эти данные?

Астрономия быстро становится проблемой больших данных. Такие проекты, как LSST, будут производить 15–30 терабайт данных за ночь. Это чушь, i, и сразу бросилось в глаза, особенно в рамках нашей работы над новым продуктом DeepLearni.ng Frontiers, который пытается усовершенствовать массивные конвейеры данных.

Мы также быстро узнали общие способы обнаружения экзопланет (планет за пределами солнечной системы Земли) с использованием данных с разных спутников. Позже у нас будет еще один пост, посвященный этой теме.

Применяют ли астрономы машинное обучение?

Да, но ненамного. Астрономия традиционно использовала человеческий компонент для идентификации объектов. Одним из наиболее интересных проектов, которые мы нашли, был Galaxy Zoo, который краудсорсингом занимается идентификацией галактик из Sloan Digital Sky Survey. Большинство примеров машинного обучения, как правило, относятся к классической стороне с использованием таких методов, как кластеризация с использованием K-средних или логистическая регрессия (технические детали, которые будут в статье о наших моделях).

Используют ли астрономы современные методы, такие как нейронные сети?

Не совсем. Например, быстрый поиск упоминаний нейронных сетей или глубокого обучения в связи с астрономией на arxiv.org не дает больше, чем несколько результатов. После разговора с доктором наук по машинному обучению, ставшим астрономом из Университета Торонто, мы узнали, что для этого есть причина - вы не можете просто использовать стандартную модель из scikit-learn по доступным данным, вам нужно фундаментально понимать, что вы делаете. как в астрономии, так и в моделировании. Именно здесь мы надеемся пролить наибольший свет, поскольку именно так мы работаем как компания - убедитесь, что мы понимаем проблему с разных точек зрения, а затем приступим к созданию собственной модели, которая использует эти идеи. Мы всегда будем пытаться вернуться к этому моменту, почему бы вам просто не бросить в него какую-нибудь нестандартную модель?

Решение проблемы

В ходе нашего исследования мы нашли эту статью: Автоматическая идентификация переходных процессов в обзоре темной энергии.

В нем описывается использование модели машинного обучения (случайный лес) с данными из программы Dark Energy Survey Supernova (DES-SN), чтобы сделать идентификацию переходных процессов более эффективной и точной. Он предоставил данные, код и хорошую документацию по модели, которую они построили. Мы решили, что это будет хорошим начальным испытанием, чтобы увидеть, сможем ли мы превзойти бумажную модель с помощью глубокой нейронной сети.

В следующем посте мы поговорим о текущей задаче, нашем плане решения проблемы, а также об архитектурах моделей. Быть в курсе!

Мы хотели бы поблагодарить Натали Уэллетт, Дастина Ланга, Дэна Формана-Макки и Росс Фадели за то, что они нашли время ответить на наши вопросы новичков и внесли ценный вклад в создание этого проекта. идущий!