Инструмент аннотаций для семантической сегментации с использованием модели Segment Anything (SAM)

Аннотация

Изучение функциональности, возможностей и потенциальных применений двух передовых инструментов в области компьютерного зрения и геопространственного анализа: модели Segment Anything и библиотеки Segment Geospatial. Модель Segment Anything, разработанная Meta AI, предлагает самые современные возможности семантической сегментации различных типов изображений, включая спутниковые снимки. Обученный на обширном наборе данных, он автоматизирует идентификацию объектов и генерирует точные маски сегментации, сокращая ручные усилия и обеспечивая согласованность. Геопространственная библиотека Segment, разработанная Александром Гончаренко, дополняет модель Segment Anything, обеспечивая расширенный геопространственный анализ аннотированных спутниковых изображений. Целью было получить более глубокое понимание этих инструментов и их потенциального использования в задачах семантической сегментации и геопространственного анализа. Методология включала в себя тщательное исследование, анализ исследовательских работ и кода Python, а также практические эксперименты для получения практических знаний и понимания функций инструментов.

1. Введение

1.1 Предыстория

В области компьютерного зрения и геопространственного анализа произошли значительные успехи благодаря растущей доступности спутниковых изображений и необходимости точного анализа. Такие инструменты, как Segment Anything Model (разработанная Meta AI) и Segment Geospatial Library (разработанная Александром Гончаренко), стали ценными ресурсами для семантической сегментации и геопространственного анализа.

Семантическая сегментация имеет решающее значение для идентификации объектов и регионов на спутниковых изображениях, а инструмент Segment Anything предлагает самые современные возможности для этой задачи. Сэм прошел обучение на крупнейшем на сегодняшний день наборе данных сегментации, содержащем более 1 миллиарда масок на 11 миллионах лицензированных и конфиденциальных изображений. Он автоматизирует идентификацию объектов и генерирует точные маски сегментации, сокращая ручные усилия и обеспечивая согласованность.

Сегментная геопространственная библиотека дополняет это, объединяя геопространственные данные и обеспечивая расширенный анализ, такой как геопространственные запросы и пространственные агрегации, на аннотированных спутниковых изображениях. Эти инструменты удовлетворяют потребность в эффективности и точности обработки растущего объема спутниковых изображений.

Основное внимание уделялось изучению функциональных возможностей, возможностей и потенциальных применений инструмента Segment Anything и Segment Geospatial Library. Благодаря углубленному изучению их документации, анализу кода Python и практическим экспериментам было достигнуто полное понимание.

1.2 Цели

Задачи были сосредоточены на исследовании и понимании функциональности и применения инструмента Segment Anything и Segment Geospatial Library. Основная цель состояла в том, чтобы получить глубокие знания и понимание этих инструментов, уделяя особое внимание их потенциальному использованию в задачах семантической сегментации и геопространственного анализа.

Целью проекта было углубиться во внутреннюю работу инструмента Segment Anything, изучить его алгоритмы, методы и возможности семантической сегментации различных типов изображений, включая спутниковые снимки. Целью этого исследования было понять, как инструмент автоматизирует процесс идентификации объектов и генерирует точные маски сегментации на уровне пикселей.

Одновременно с этим исследование Сегментной геопространственной библиотеки было направлено на понимание ее функциональных возможностей и приложений в геопространственном анализе. Это включало изучение его интеграции с кодом Python, изучение его возможностей геопространственных запросов, пространственных агрегаций и методов расширенного анализа.

1.3 Методология

Исследование. Исследование началось с тщательного изучения модели сегментирования чего угодно. Это включало изучение репозиториев GitHub, документации и изучение инструмента, чтобы получить представление об его назначении, функциях и потенциальных приложениях.

Анализ исследовательской работы. В документе содержится ценная информация об инструментах, включая инструкции по установке, рекомендации по использованию и примеры кода. Документация была тщательно изучена, чтобы понять основные концепции, алгоритмы и методы, реализованные в инструментах.

Анализ кода. Код Python инструмента Segment Anything был проанализирован, чтобы лучше понять детали его реализации. Изучая код, я смог раскрыть лежащие в его основе алгоритмы и изучить, как инструменты решают различные задачи, связанные с семантической сегментацией и геопространственным анализом.

Практическое исследование. В дополнение к исследованию и анализу я провел практическое изучение инструмента. Это включало настройку необходимых сред, запуск примера кода и экспериментирование с различными функциями и параметрами. Благодаря этому практическому опыту я получил практические знания и понимание возможностей и ограничений этих инструментов.

2. Исследование инструмента Segment Anything и библиотеки Segment Geospatial.

2.1 Исследование инструмента Segment Anything

Репозиторий инструмента на GitHub содержал два файла Python:

Automatic_mask_generator.ipynb

Файл Python «automatic_mask_generator_example» в репозитории GitHub инструмента Segment Anything представляет автоматизированный подход к сегментации изображений. Он использует библиотеку SamAutomaticMaskGenerator, которая предназначена для создания масок сегментации без каких-либо подсказок ручного ввода. Основная цель этого файла — упростить процесс сегментации изображений за счет автоматизации создания масок.

Процесс автоматического создания маски упрощается за счет использования одной из трех доступных контрольных точек модели.

Модель ЗРК ВИТ-Х
Модель ЗРК ВиТ-Л
Модель ЗРК ВИТ-Б

Эти контрольные точки модели представляют собой предварительно обученные модели, которые научились эффективно идентифицировать и сегментировать объекты на изображениях. Используя эти модели, автоматический генератор масок может быстро и точно создавать маски сегментации для входных изображений.

Код Python в файле «automatic_mask_generator_example» предназначен для загрузки выбранной контрольной точки модели, предварительной обработки входного изображения и применения алгоритма сегментации для создания соответствующей маски. Этот процесс выполняется автоматически без необходимости ввода данных пользователем. Автоматизация, предлагаемая файлом «automatic_mask_generator_example», значительно сокращает ручные усилия и время, необходимые для сегментации изображения.

Используя предварительно обученные модели и автоматизируя процесс сегментации, я эффективно создавал точные маски для различных изображений. Наличие нескольких контрольных точек модели обеспечивает гибкость в выборе наиболее подходящей модели для конкретной задачи сегментации. Я экспериментировал с разными моделями, чтобы оценить их производительность и выбрать ту, которая лучше всего соответствует их требованиям.

2. Predictor_example.ipynb

В этом файле представлены три функции: «show_mask», «show_points» и «show_box», каждая из которых служит уникальной цели в процессе сегментации изображения.

Функция show_mask генерирует маску для входного изображения. Сначала он случайным образом назначает цвет маске, если не указано иное, установив для параметра «random_color» значение False. Эта функция обеспечивает гибкость визуализации маски сегментации, позволяя пользователю управлять цветовой схемой. Сгенерированную маску можно наложить на исходное изображение, выделив сегментированные области.
Функция «show_points» предназначена для отображения точек на оси. В качестве входных данных он принимает набор координат и меток, а также такие параметры, как ось и размер маркера. Эта функция полезна при определении конкретных точек интереса на изображении. Отображая помеченные точки, пользователи могут получить представление о распределении и характеристиках различных объектов или регионов.
Функция «show_box» позволяет визуализировать ограничивающие рамки на оси. В качестве входных данных он принимает прямоугольник и ось, что позволяет пользователям отображать и анализировать прямоугольные области изображения. Эта функция особенно полезна при работе с объектами или областями, которые могут быть заключены в рамку, например зданиями или транспортными средствами.

В файле «predictor_example» используется одна из трёх доступных моделей.

Модель ЗРК ВИТ-Х
Модель ЗРК ВиТ-Л
Модель ЗРК ВИТ-Б

для сегментации изображений. Эти предварительно обученные модели научились эффективно идентифицировать и сегментировать объекты на изображениях. Выбрав соответствующую контрольную точку модели, пользователи могут обеспечить точные результаты сегментации в соответствии со своими конкретными потребностями.

Чтобы инициировать процесс сегментации изображения, пользователь выбирает точку на изображении и присваивает соответствующую метку. Выбранная точка служит отправной точкой для алгоритма сегментации, позволяя модели идентифицировать и сегментировать объекты из этого местоположения.

Параметр multimask_output, если для него установлено значение True, возвращает три маски с разными оценками, предлагая дополнительную информацию о результатах сегментации.

На одном изображении также можно указать несколько точек для получения разных масок, что позволяет исследовать различные возможности сегментации.

Единственная входная точка неоднозначна, и модель вернула несколько объектов, соответствующих ей. Для получения одного объекта можно указать несколько точек. Если доступно, в модель также можно добавить маску из предыдущей итерации, чтобы помочь в прогнозировании. При указании одного объекта с несколькими подсказками можно запросить одну маску, установив multimask_output=False.

Модель также может принимать поле в качестве входных данных в формате xyxy.

Кроме того, файл «predictor_example» поддерживает объединение точек и прямоугольников для создания индивидуальной маски. Используя функции «show_points» и «show_box» в сочетании с алгоритмом сегментации изображения, пользователи могут уточнить и адаптировать процесс сегментации к конкретным областям или интересующим объектам.

Универсальность файла «predictor_example» заключается в его способности визуализировать результаты сегментации с помощью масок, точек и прямоугольников. Используя эти функции, пользователи могут лучше понять результаты сегментации, оценить точность алгоритма сегментации и изучить различные точки зрения и интерпретации сегментированных регионов.

2.2 Исследование модели Segment Anything с использованием спутниковых изображений (Геопространственная библиотека сегментов)

Пакет Segment-Geospatial черпает вдохновение из репозитория Segmentanything-eo, автором которого является Александр Гончаренко. Основная цель — упростить процесс использования SAM для анализа геопространственных данных, предоставив пользователям возможность добиться этого.

Сегментация изображений и обнаружение объектов выполнялись разными методами с использованием разных файлов Python:

1. Satellite.ipynb

В файле используется пакет Leafmap, который является мощным инструментом для интерактивного картографирования и геопространственного анализа. Leafmap предоставляет ряд функций, которые облегчают визуализацию и анализ геопространственных данных. В контексте файла «Satellite.ipynb» Leafmap используется для загрузки и отображения интересующего спутникового изображения.

Кроме того, в файле используется библиотека SAMGeo, которая представляет собой библиотеку Python, специально разработанную для пространственного анализа и географической визуализации. SAMGeo предлагает различные инструменты и функции для работы с пространственными данными, обеспечивающие расширенные возможности анализа и визуализации. Основная функциональность файла «Satellite.ipynb» заключается в сегментации спутникового изображения.

Это достигается за счет использования одной из трех доступных моделей:

Модель ЗРК ВиТ-Х (по умолчанию)
Модель ЗРК ВиТ-Л
Модель ЗРК ВИТ-Б

каждый из них предварительно обучен выполнять задачи сегментации изображений. Выбрав нужную модель, файл применяет алгоритм сегментации к спутниковому изображению, генерируя точные маски сегментации.

Использование пакета Leafmap и библиотеки SAMGeo расширяет возможности файла с точки зрения интерактивного картографирования, геопространственного анализа и визуализации. Эти инструменты позволяют стажеру не только выполнять сегментацию изображений, но и глубже понимать пространственные аспекты и закономерности спутникового изображения.

Эта сегментация была выполнена с использованием разных спутниковых изображений, что дало нам почти одинаковые результаты.

2. Входные_подсказки.ipynb

Записная книжка «input_prompts.ipynb» демонстрирует процесс создания масок объектов из подсказок ввода с использованием модели Segment Anything Model (SAM). В этом блокноте используются библиотеки Leafmap и SAMGeo, такие как ранее упомянутый файл «Satellite.ipynb», для облегчения сегментации изображений. Цель этого блокнота — продемонстрировать, как можно создавать маски объектов с помощью подсказок для ввода.

В файле также используется одна из трех доступных моделей для задач сегментации изображений. Эти предварительно обученные модели в SAM способны точно сегментировать объекты на изображениях. Выбрав нужную модель, ноутбук применяет алгоритм сегментации к входному изображению, создавая точные маски объектов.

Процесс сегментации начинается с ввода одной точки. Эта точка служит ориентиром для алгоритма сегментации для идентификации и сегментации соответствующего объекта. Точка может быть указана как кортеж координат, например (столбец, строка) или (лон, широта).

Кроме того, точки можно указать, используя путь к файлу набора векторных данных, что обеспечивает более гибкие и разнообразные параметры ввода. В тех случаях, когда точки не указаны в формате (столбец, строка), параметр point_crs можно использовать для автоматического преобразования точек в координаты столбца и строки изображения.

Более того, ноутбук демонстрирует возможность использования нескольких точек для создания масок объектов. Вводя несколько точек, алгоритм сегментации может идентифицировать и сегментировать несколько объектов на изображении. Эта функция обеспечивает большую гибкость и позволяет сегментировать различные интересующие объекты.

Интеграция библиотек Leafmap и SAMGeo еще больше расширяет возможности блокнота «input_prompts.ipynb». Библиотека Leafmap предоставляет функции интерактивного картографирования, а библиотека SAMGeo предлагает инструменты для пространственного анализа и географической визуализации. Эти библиотеки в сочетании с моделью SAM позволяют мне эффективно сегментировать объекты на основе подсказок ввода и визуализировать полученные маски объектов.

3. Текст_подсказки.ipynb

В этой записной книжке показано, как создавать маски объектов из текстовых подсказок с помощью модели Segment Anything Model (SAM).

В блокноте «Text_prompts.ipynb» демонстрируется создание масок объектов из текстовых подсказок с использованием модели Segment Anything Model (SAM). В этом блокноте используются библиотеки Leafmap и SAMGeo, а также дополнительная библиотека LangSAM(), которая хранит веса модели и облегчает настройку модели для вывода.

В блокноте основное внимание уделяется использованию текстовых подсказок для управления процессом сегментации. Пользователям необходимо указать текстовую подсказку, описывающую интересующий объект, например «дерево», «здание» или «бассейн». Затем модель использует методы обработки естественного языка (NLP), чтобы связать текстовую подсказку с соответствующими объектами на изображении и создать маски объектов.

Важнейший аспект процесса прогнозирования модели включает установку соответствующих порогов для обнаружения объектов и текстовой ассоциации с обнаруженными объектами. Эти пороговые значения определяют баланс между точностью и полнотой, позволяя пользователям контролировать компромисс между точным обнаружением объектов и полным охватом желаемых объектов.

В тетради приведены конкретные примеры для трех объектов: деревьев, зданий и бассейнов.

Для каждого объекта рассматривались два сценария для оценки эффективности модели.

Для деревьев сценарии включали выбор изображения с помощью:

Меньшая плотность деревьев и больше разнообразных объектов

2. А также изображение леса с небольшим зданием в центре.

• Аналогично для зданий

Один сценарий включал изображение с меньшим количеством зданий и большим разнообразием объектов.

2. В то время как другой сценарий включал изображение с более высокой концентрацией зданий.

• Сегментация бассейнов выполнялась только по одному изображению, поскольку на одном изображении было сложно найти много бассейнов.

Тестируя модель в различных сценариях, стажер может оценить ее эффективность в различных условиях окружающей среды и составе объектов. Эта оценка дает представление о производительности, сильных сторонах и ограничениях модели при работе с различными типами объектов и контекстами изображений.

Наблюдения и выводы

При изучении инструмента Segment Anything, Segment Geospatial Library и связанных с ним функций было сделано несколько выводов и наблюдений. Эти выводы и наблюдения предоставили ценную информацию о возможностях и потенциальном применении этих инструментов в контексте семантической сегментации и геопространственного анализа. Сегментировать любую модель можно было правильно и точно сегментировать.

Низкая плотность деревьев и более разнообразные объекты.
Изображение леса с небольшим зданием в центре.
Изображение с меньшим количеством зданий и большим разнообразием объектов.
Бассейны тоже.

но не смог сегментировать сценарий, включающий изображение с более высокой концентрацией зданий, поскольку он также сегментирует небольшое количество деревьев и одновременно сегментирует здания.

Ошибки сегментации могут быть вызваны следующими причинами:

Границы сложных объектов. Модель может с трудом точно сегментировать каждое здание из-за перекрывающихся или неоднозначных границ. Повышенная сложность границ объекта может привести к ошибкам сегментации.
Вариации внешнего вида зданий. На изображениях с более высокой концентрацией зданий могут наблюдаться различия в размерах, формах, ориентации и архитектурных стилях зданий. Недостаточное воздействие различных типов и конфигураций зданий во время обучения может ограничить способность модели точно сегментировать здания в густонаселенных районах.
Перекрывающиеся конструкции. Когда здания расположены плотно, они могут перекрывать друг друга или иметь сложные перекрывающиеся конструкции.

Заключение

В заключение проект был сосредоточен на изучении и понимании функциональных возможностей и приложений инструмента Segment Anything и Segment Geospatial Library. Благодаря углубленным исследованиям, анализу документации и практическим экспериментам была получена ценная информация о возможностях этих инструментов в области семантической сегментации и геопространственного анализа.

Инструмент Segment Anything оказался эффективным и точным при автоматизации аннотирования и сегментации спутниковых изображений. Он использовал передовые алгоритмы машинного обучения для идентификации и маркировки объектов, создавая точные маски сегментации на уровне пикселей. Это обеспечило согласованность и точность аннотированных наборов данных.

Интеграция сегментной геопространственной библиотеки еще больше расширила возможности инструмента, позволяя выполнять геопространственные запросы, пространственную агрегацию и расширенный анализ аннотированных спутниковых изображений. Эта интеграция расширила возможности анализа и углубила понимание пространственных закономерностей в данных изображений.

Были получены ценные знания и идеи относительно возможностей и потенциального применения этих инструментов. Практическое исследование и экспериментирование обеспечили практическое понимание их функциональности, а анализ кода и документации углубил понимание лежащих в их основе алгоритмов и методов.