Использование глубокого обучения и синтетических изображений для поиска безопасных зон приземления на астероидах.

Введение

Цель этого процесса моделирования — найти участки поверхности астероида Бенну, свободные от камней, используя для обучения только синтетические изображения лунной поверхности. Использование этих моделей могло бы сэкономить более 18 000 часов ручного просмотра изображений в миссии НАСА OSIRIS-Rex.

Читайте дальше, если вы хотите узнать, как моя настраиваемая модель глубокого обучения превосходит стандартную отраслевую модель U-Net с этим классом семантической сегментации, при этом сложность составляет всего 3%.

Если вам интересно узнать о потенциальном масштабе и влиянии этого подхода, см. мою предыдущую статью о глубокой ценности использования этих подходов.

Данные и предварительная обработка

Для создания этой модели используются два набора данных: Набор данных искусственного лунного ландшафта Ромена Пессии и Геньи Ишигами (ALLD) и Глобальная мозаика Бенну (BGM).

ALLD — это набор данных синтетически созданных изображений лунных поверхностей с попиксельными метками классов валунов, скал, неба и фона. Этот набор данных используется для начального обучения и тестирования алгоритмов. В наборе данных 9766 синтетических изображений с разрешением 480x720p. Каждое изображение имеет связанную с ним маску предсказания, что делает семантическую сегментацию лучшим подходом для обработки этой возможности моделирования.

Чтобы соответствовать задаче, которую я решаю, я упростил классы, чтобы остался только бинарный класс — «рок» и «не рок». Я сделал это, потому что мы не хотим, чтобы наш космический корабль врезался в какой-либо камень, независимо от его формы и размера. В дополнение к этому упрощению я также предварительно обрабатываю каждое изображение, пропуская его через обнаружение границ Собеля для последующего использования в пользовательских моделях.

Фоновая музыка представляет собой реальное изображение с высоким разрешением всей поверхности астероида, где каждый пиксель соответствует расстоянию в 5 см и имеет общий размер 15708x7854 пикселей. Фоновая музыка используется для проверки производительности алгоритма на реальных данных НАСА. Я разбиваю это изображение на отдельные отдельные изображения того же размера, что и набор данных ALLD (480x720p), для облегчения обработки после обучения модели.

Структура оценки

Оценка модели

Чтобы правильно оценить каждую из моделей семантической сегментации, нам нужны согласованные метрики. Каждая модель производит показатели точности и полноты для каждого класса по всем пикселям и изображениям. Я использую метрики точности и отзыва для получения оценки F1 для каждой модели. Оценка F1 — это среднее гармоническое между точностью и полнотой.

Наборы для обучения и тестирования состоят из набора данных ALLD, разделенного на 70 % для обучения и 30 % для тестирования. Окончательный набор проверки зарезервирован для всей поверхности BGM. После завершения обучения модели две модели с лучшим результатом F1 в проверочном наборе используются для окончательной оценки, где они будут прогнозировать камни на основной площадке приземления «Соловей» на поверхности астероида Бенну. Поскольку у меня нет доступа к данным сегментации изображений на реальных изображениях, сравнение моделей основано на том, насколько хорошо модели идентифицировали две посадочные площадки для миссии.

Высокоуровневый дизайн модели

Взвешенная бинарная кросс-энтропия используется в качестве функции потерь для всех нейронных сетей. Эта функция потерь позволяет нам сфокусировать модель на предсказании одного класса по сравнению с другим. В наборе данных ALLD среднее соотношение пикселей положительного и отрицательного классов по всем изображениям в наборе обучающих данных примерно в 10 раз превышало количество отрицательных классов по сравнению с положительными классами на пиксель.

Стоимость предсказания плоской поверхности вместо камня (ложноотрицательный результат) намного выше, чем предсказание камня и фактического наличия плоской поверхности (ложноположительный результат), поэтому лучшая модель — это та, которая сочетает в себе высочайшую точность. и вспомнить. Чтобы бороться с этим, стоимость неправильной классификации пропущенного камня весит в десять раз больше, чем пропущенная пустая область.

Каждая модель использует оптимизатор Adam со скоростью обучения 0,0001 и изображениями 480x720 пикселей, и каждая сеть использует сигмовидную функцию активации для вероятности прогнозирования конечного класса.

Архитектуры моделей

Чтобы сэкономить время, мы рассмотрим две лучшие модели: стандартную модель U-Net и мою пользовательскую модель Y-Model.

Ю-нет

Архитектура U-Net изначально была разработана в 2015 году для сегментации биомедицинских изображений. Дизайн архитектуры и тщательное тестирование в других исследованиях делают эту архитектуру отличной базовой моделью для сравнения.

В архитектуре U-Net используются два разных «пути», называемые сокращающимся и расширяющимся путями. Пути деконструируют и реконструируют изображение таким образом, чтобы выводить желаемые прогнозы, сохраняя при этом как можно большую часть исходного изображения. U-Net имеет чуть более 31 миллиона обучаемых параметров. Таким образом, это относительно сложная модель с точки зрения параметров по сравнению с Y-моделью. Ниже представлено изображение архитектуры U-Net.

Модель Y

Архитектура Y-модели имеет форму горизонтальной буквы «Y». Архитектура Y-модели пытается получить информацию, полезную для прогнозов, из двух версий входного изображения: необработанного изображения и необработанного изображения с примененным обнаружением границ Собеля. Эта модель содержит около 1,4 миллиона параметров и имеет 4,5% обучаемых параметров, как U-Net.

Что отличает эту модель, так это то, что она имеет ветвь, предназначенную для приема предварительно обработанного изображения. В этом случае к предварительно обработанному изображению применяется обнаружение границ Собеля. Идея использования обнаружения границ Собеля в сочетании с исходным изображением заключается в том, что я могу предоставить модели то, что, как я знаю, является важной информацией об объектах, которые нужно предсказать.

Это означает, что модели не нужно было бы узнавать, что ребра важны сами по себе. Вместо этого я знаю, что для того, чтобы определить, является ли что-то камнем или нет, у него обычно должен быть твердый край. Обладая этим интуитивным знанием, я предоставляю эту информацию модели, чтобы сузить возможное пространство признаков, которое необходимо изучить.

Полученные результаты

После обучения в течение 20 эпох оценивается производительность модели на обучающем и тестовом наборах. Показатели для обучающих и тестовых наборов следующие:

  • Тренировочный балл U-Net F1: 71,4%
  • Тренировочная оценка Y-Model F1: 59,4%
  • Результат теста U-Net F1: 73,1%
  • Результат теста Y-Model F1: 63,8%

Дружеское напоминание: Оценка F1 — это среднее гармоническое между точностью и полнотой.

Если использовать только эти показатели, оказывается, что U-Net является лучшей моделью. Однако эти показатели являются лишь частью истории.

Визуальный просмотр изображений набора тестов

В дополнение к метрикам я лучше понимаю, как работают модели, просматривая образцы изображений из набора данных. В образцах чем ярче желтый пиксель, тем выше вероятность того, что модель предсказывает, что пиксель принадлежит камню. Из образцов синтетических изображений из ALLD легко увидеть, что U-Net явно лучше всего соответствует исходной маске.

Маска предсказания Y-модели более беспорядочна из-за более простой структуры модели. Y-модель также имеет большие трудности в различении фонового класса от скал, так как они видны на горизонте. Вы можете ясно видеть это в маске предсказания Y-модели, где фон тускло-зеленый/синий. Большой вопрос заключается в том, верно ли это поведение, когда мы смотрим на реальные изображения?

Визуальный просмотр изображений набора проверки

Когда мы сравниваем прогнозы для зоны посадки Nightingale (которая является официальной зоной посадки миссии), мы получаем четкое представление о разнице в производительности U-Net и Y-Model в реальной жизни.

Если вы заглянули вперед к изображениям, вы можете заметить, что производительность модели, похоже, изменилась.

Мы ясно видим, что U-Net работает не так хорошо, как Y-модель. Модель U-Net пропускает значительную часть скал в районе приземления, в то время как Y-модель четко определяет зону приземления НАСА. Это критический показатель того, что модель U-Net переопределяет синтетические изображения. Эта чрезмерная подгонка означает, что U-Net изучил функции из синтетических изображений, которые не применимы к обучающему набору. Без этих знаний я мог бы порекомендовать неэффективную модель U-Net.

Заключение

Y-модель обеспечивает удовлетворительную производительность, когда мы смотрим на место посадки Nightengale, в то время как U-Net работает лучше на синтетических данных. Это поворот, если бы мы смотрели только на обучающие данные, поскольку U-Net можно было бы неправильно истолковать как модель с самой высокой производительностью, учитывая улучшенную производительность синтетических данных по сравнению с Y-моделью.

В дополнение к этому открытию важно отметить, что добровольцам НАСА потребовалось более 18 000 часов для поиска поверхности астероида, но для того, чтобы получить результаты для всей поверхности астероида Бенну от Y-Model потребовалось около 2 минут. . Чтобы дать вам представление о том, насколько быстро это предсказание зависит от размера астероида: Бенну такой же большой, как Эмпайр-стейт-билдинг.

В заключение, используя менее сложную модель и заранее выполнив часть предварительной обработки изображений, я смог построить эффективную модель, используя только синтетические изображения, которые быстро и эффективно определяют участки астероидов, свободные от камней.

В качестве бонуса ниже приведено результирующее изображение всей поверхности астероида Бенну из Y-модели. На нем есть посадочные площадки Соловей (фактическая посадочная площадка) и Скопа (резервная посадочная площадка). Чтобы дать вам представление о масштабе некоторых камней, я обозначил камень буквой «А» — он размером с дом.

Если вы хотите более глубокого погружения, вы можете найти мою полную статью здесь: Автономное обнаружение горных пород для миссий астероидов с использованием глубокого обучения и синтетических данных | Северо-западный университет

Хотите узнать больше о науке о данных? Следуйте за мной на Medium или свяжитесь со мной в LinkedIn.