Недавно мы имели удовольствие послушать презентацию доктора Райана Уайта в серии мероприятий по машинному обучению, которые проводит AWH. Доктор Райан Уайт обсудил последние инновации в моделях глубокого обучения и вычислительном оборудовании, в том числе огромный прогресс в классификации изображений, а также более сложные задачи компьютерного зрения, такие как обнаружение объектов и сегментация экземпляров.

Райан Уайт, доктор философии, математик с опытом работы в области машинного обучения, компьютерного зрения и теории вероятностей, который активно занимается как академической, так и консультационной работой. В настоящее время он является доцентом кафедры математических наук в Технологическом институте Флориды, руководителем практики обработки данных в White Associates R&D, LLC и старшим советником по наукам о данных в некоммерческой организации Engage-AI. Его недавняя научная работа посвящена обнаружению и отслеживанию объектов для поддержки миссий по обслуживанию спутников на орбите и сбору космического мусора, сегментации изображений для измерения ледников по спутниковым снимкам и отслеживанию модальных наборов на основе вероятностных потоков. В этом посте мы обсудим некоторые ключевые выводы из презентации доктора Уайта для всех, кто хочет узнать больше о последних разработках и практических применениях машинного обучения.

Доктор Уайт начинает с того, что четко разделяет термины «ИИ», «машинное обучение» и «глубокое обучение», поскольку, по его мнению, люди часто используют их неправильно. ИИ — это просто общий термин для машины, которая пытается выполнять некоторые действия, подобные человеческим, — машины «думают» и «обучаются». Машинное обучение — это подмножество ИИ, включающее алгоритмы, использующие математику и статистику в попытке научить машины учиться на данных. Затем глубокое обучение является еще одним подмножеством этого и представляет собой класс многоуровневых нейронных сетей, которые учатся на основе данных. Эти нейронные сети имеют входной слой (входящие данные), скрытый слой (нейроны или функции, которым вы можете присвоить вес) и выходной слой (то, что прогнозируется). Глубокое обучение просто относится к количеству скрытых слоев нейронов, которые есть в сети. Чем больше скрытых слоев, тем глубже сеть.

Переходя к идее использования этих концепций для компьютерного зрения, важно начать с простого объяснения возникновения классификации изображений. Один из первых примеров предполагает проверку того, может ли компьютер распознавать написанные от руки числа. Это было важно для Почтовой службы США, чтобы письма и посылки можно было направлять в нужное место без ручной сортировки по почтовому индексу. Если классификация изображений для вас в новинку, настоятельно рекомендуем посмотреть видео презентации, потому что доктор Уайт излагает задействованную в ней математическую интуицию доступным для всех способом.

Чтобы обучить нейронную сеть, вы начинаете просто случайным образом инициализировать веса вашей модели. Затем вы возьмете все входные данные (данные, для которых у вас уже есть значения) и пропустите их через машину. Это даст вам точную функцию потерь (ошибку), и с помощью исчисления вы сможете вычислить производную ошибки. Тогда обратное распространение является кратчайшим путем, который делает все это численно выполнимым, потому что в противном случае это было бы слишком медленным. При этом можно пересчитать веса и начать процесс заново. В конце концов, ошибка выровняется.

Начиная с 2008 года проводится ежегодный конкурс классификации изображений под названием IMAGENET, в котором 1,4 миллиона изображений представляют 1000 различных классов объектов. Суть заключалась в том, чтобы воспользоваться успехом в классификации цифр и попытаться классифицировать гораздо более сложные изображения. Грузовик, например, может быть разного цвета, смотреться под разными углами, иметь заблокированные части или иметь разные размеры в кадре. Это была задача, которую большинство людей считало неразрешимой, но к 2015 году конференция была закрыта, потому что одна группа создала модель с меньшим количеством ошибок, чем человек. Успех пришел из-за увеличения глубины моделей. В 2010 году у лучшей модели было 2 слоя, а к 2015 году у лучшей модели было 152 слоя. В этом сила глубокого обучения.

Успех классификации изображений привел доктора Уайта к текущей работе, которая выводит компьютерное зрение не только из классификации изображений, но и к обнаружению объектов и сегментации экземпляров.

Доктор Уайт и его коллеги из Флоридского технологического института работают с космическими силами над монументальной задачей использования ИИ для ремонта старых спутников на орбите. Спутники, срок службы которых подходит к концу, часто используют свой последний остаток топлива, чтобы выйти на орбиту немного дальше, поэтому они не рискуют столкнуться с действующими спутниками, что привело к созданию спутникового кладбища. Это связано с тем, что людям слишком опасно пытаться ремонтировать их в космосе, а делать это с земли слишком дорого. Это также не принимает во внимание сложность точного управления с земли из-за задержки.

Есть много работы, которую можно было бы выполнить на спутниках, если бы это было возможно. Всего несколько примеров включают в себя обновление оперативной памяти, обновление нового программного обеспечения, исправление сломанной детали и добавление топлива. По этой причине доктор Уайт работает над созданием системы наведения и навигации для спутника-преследователя, который может выполнять работу автономно. Это начинается с разработки модели классификации изображений для точной идентификации спутника. Эта проблема требует, чтобы модель вышла за рамки этого. В реальном мире в поле зрения одновременно будет много других вещей, и они будут двигаться по орбите. Модель доктора Уайта также должна выполнять определение местоположения объекта и обнаружение объекта, когда в поле зрения находится несколько объектов, чтобы точно найти правильные части спутника.

Подумайте об этом так. Классификация изображений позволяет узнать, является ли изображение кошкой или нет. Местоположение объекта позволяет определить, есть ли кошка на изображении, и если да, то где она находится. Обнаружение объектов сочетает в себе оба этих метода. Если есть изображение собаки, утки и кошки, обнаружение объектов может размещать коробки вокруг каждой вещи, различать и подсказывать вам, где собака, где утка, а где кошка. Это то, что требуется от модели, которую доктор Уайт отправит в космос.

Будет транслироваться камера автономного спутника-преследователя, который анализирует то, к чему он приближается, и использует обнаружение объектов, чтобы определить, где находится каждая часть (панели солнечных батарей, антенны, корпус спутника, двигатели, топливная форсунка и т. д.). Еще до того, как спутник-преследователь сможет выполнить работу по намеченной детали, ему необходимо использовать эту модель просто для стыковки. Эти мертвые спутники не предназначены для захвата, поэтому сложно найти место для стыковки. Кроме того, антенны и солнечные батареи легко сломать, поэтому их следует избегать. Это означает, что только для стыковки со спутником-преследователем модель должна использовать обнаружение объектов, чтобы захватить только двигатели или корпус.

Однако давайте продолжим усложнять задачу. Невозможно отправить систему с высоким энергопотреблением. Спутники Chaser имеют слабый бортовой компьютер из-за ограничений по стоимости и весу. Это означает, что команда вынуждена использовать однократный детектор под названием YOLO (You Only Look Once). Это самый быстрый метод идентификации, но он менее точен, чем другие, потребляющие больше энергии.

YOLO использует ограничивающие рамки для поиска объектов. Однако неподвижные изображения слишком примитивны для этого проекта. Чтобы действительно проверить, будет ли модель работать в реальном мире, вместо этого ее тестируют на видеоклипах.

Команда добилась хорошего прогресса в модели. В дальнейшем планируется продолжить тестирование бортового оборудования, привязать компьютер к беспилотнику и попытаться посадить его на спутник в лаборатории, а также планирование траектории полета, наведение и навигацию для стыковки в рамках их обязательств перед космическими силами. Надеюсь, скоро это станет решением очень большой проблемы. Чтобы подчеркнуть масштаб проблемы, д-р Уайт процитировал Гордона Рослера из DARPA: «Нет другой области человеческой деятельности, где мы строим что-то, что стоит миллиард долларов, и никогда не смотрим на это снова, никогда не ремонтируем и никогда не модернизируем его. ». Возможно, с использованием моделей обнаружения объектов это наконец изменится.

Вторая область, в которой доктор Уайт выводит компьютерное зрение за рамки классификации изображений, — это наука о климате. Чтобы смоделировать отступающий поток ледников с течением времени, он использует сегментацию экземпляров, которая даже на шаг впереди, чем обнаружение объектов. Вам нужно не только знать, что и где находятся вещи, но и предсказать точную границу их очертания. Это единственный способ узнать, как быстро меняются ледники и как со временем меняется их геометрия.

Данные для этой модели — это спутниковые данные LANDSAT, которые снимают всю Землю каждые 17 дней. LANDSAT захватывает не только изображения, но и различные длины волн светового спектра, такие как инфракрасное излучение, помимо видимого света. С помощью этих изображений модель определяет, где находятся ледники, и пытается предсказать их движение. Для этого используется алгоритм обнаружения объектов под названием Mask R-CNN. Разница между этим и YOLO, который используется для решения проблемы ремонта спутника, заключается в том, что YOLO — это однократный детектор, что означает, что он имеет только один этап вывода. Mask R-CNN имеет два этапа вывода. Сначала он идентифицирует возможные ограничивающие рамки объектов, но затем у него есть еще одна ветвь, которая пытается идентифицировать каждый пиксель объекта. Он предсказывает, какие пиксели соответствуют объекту, а какие нет. Так создается граница или контур. С помощью этой модели доктор Уайт стремится помочь ученым-климатологам определить, какие ледники меняются, как они меняются и как быстро они меняются.

За последнее десятилетие компьютерное зрение вышло далеко за рамки простой классификации изображений. Обнаружение объектов и сегментация экземпляров являются дальнейшими разработками в этой области, которые уже обеспечивают решения проблем, которые никогда не решались ранее.

Спасибо доктору Уайту за время, потраченное на освещение практического применения этих концепций. Хотите посмотреть всю презентацию? Лови здесь!

Хотите еще больше? Наша группа по машинному обучению Columbus Machine Learners проводит регулярные встречи, и вы можете бесплатно присоединиться к ней, если хотите следить за будущими презентациями в прямом эфире. Присоединяйтесь к нашей группе здесь.

-Кейси Ленфест, организатор сообщества в AWH. Мы помогаем компаниям стимулировать рост с помощью технологий.