Алгоритмы, основанные на человеческом восприятии

Джеки Свифт

Когда вы думаете о компьютерах, вы, вероятно, не учитываете феномен человеческого восприятия. В конце концов, какое отношение наши сенсорные способности и мозговые процессы имеют к логике компьютера? Довольно много, говорит Кавита Бала, профессор компьютерных наук и декан Колледжа вычислительной техники и информатики Энн С. Бауэрс Корнелльского университета. Для нее загадки человеческого восприятия вдохновили более чем на десятилетие новаторскую работу в области компьютерной графики и компьютерного зрения.

Бала начала свои исследования, сосредоточившись на моделировании и рендеринге на основе физики. Ее работа помогла разработать новый подход к компьютерной графике, основанный на том, как люди визуально воспринимают мир. «В реальном мире у нас есть фотоны, отражающиеся повсюду, но мы не воспринимаем каждый отдельный фотон во всей его красе», — говорит она. «Мы получаем своего рода гештальт сцены. То, что мы воспринимаем, является весьма уменьшенной формой реальной сложности».

Структура: ключ к точной визуализации

Бала работал с коллегами над исследованием и созданием моделей, которые точно отображают ткань в компьютерных изображениях. Когда исследователи начали свою работу, алгоритмы рендеринга были способны лишь приблизительно представить, как материал может выглядеть в конкретной сцене — например, внешний вид шелкового платья или бархатной рубашки, объясняет Бала. «Они никогда не выглядели так, как должны были выглядеть», — говорит она.

Бала и ее коллеги спросили, как мы отличаем шелк от бархата. «Шелк блестит, а бархат пушистый и характерным образом отражает свет», — говорит Бала. «Вот как мы различаем их. И причина, по которой они так выглядят, заключается в структуре материалов».

Вооруженные этой идеей, исследователи сделали микрокомпьютерную томографию (микро-КТ) материалов, чтобы получить детали их структуры с микронным разрешением. «Структура — это геометрическая информация, а не оптическая, — говорит Бала. «Дело не только в размышлениях; речь идет о взаимодействии света с формой материала. Это был наш ключевой вклад — понимание того, что если вы хорошо зафиксируете структуру, вы сможете создавать алгоритмы, которые автоматически создают реалистичный внешний вид материала. В течение ряда лет мы придумывали все лучшие и лучшие алгоритмы для рендеринга материалов, пока, наконец, у нас не появились великолепные модели этих материалов, которые выглядят так, как в реальном мире».

GrokStyle: получение картины

Основываясь на своем интересе к восприятию, Бала также начала изучать компьютерное зрение — способность компьютерных алгоритмов знать, на что они смотрят. Она снова обратилась к человеческому восприятию как к основе своего исследования, задаваясь вопросом, как мы распознаем то, что находится на изображении, а также как мы используем это распознавание для понимания мира.

Работая с Шоном Беллом, доктором компьютерных наук 16 года, теперь работающим в Meta (ранее Facebook Inc.), Бала изучил способ представления мебели в Интернете с помощью фотографий, размещенных на таких сайтах, как Flickr и сайтах онлайн-дизайна. Вскоре исследователи выявили неудовлетворенную потребность этих сайтов: пользователи спрашивали, какая мебель изображена на фотографиях. Они хотели знать, где они могут сами купить эти предметы, но эта информация была недоступна.

«Кто-то должен был не просто сказать: «Это стул», — говорит Бала. «Настоящий опыт заключается в том, чтобы сказать: «Это стул Имса». Это кресло из ИКЕА». И именно здесь мы почувствовали, что искусственный интеллект может сыграть положительную роль».

Бала и Белл разработали нейронные сети, алгоритмы, вдохновленные сетями нейронов в мозгу. Они взяли десятки тысяч онлайн-изображений — от фотографий из каталога продукции до изображений, опубликованных в общедоступных социальных сетях, — и показали их разрабатываемым ими нейронным сетям.

«Если у вас есть достаточно изображений вещи, вы можете узнать, что это такое», — говорит Бала. «Мы обучили эти сети выполнять мелкозернистое распознавание, чтобы они могли точно идентифицировать тип и марку мебели на изображении».

В конце концов Бала и Белл расширили опыт своей сети в сфере моды. Конечным результатом стал искусственный интеллект (ИИ), состоящий из набора алгоритмов, которые работали лучше, чем самые современные ИИ того времени. «Мы остались как минимум в два раза точнее, чем следующий лучший результат», — говорит Бала.

Бала взял отпуск в Корнелле в 2016 году и стал соучредителем компании Bell для продвижения продукта для распознавания мебели и моды с помощью ИИ под названием GrokStyle (от слова «grok», термин, введенный Робертом Хайнлайном в его романе 1961 года «Незнакомец в мире»). чужая земля). Их успех привел к приобретению GrokStyle компанией Meta. Сегодня искусственный интеллект нового поколения, основанный на GrokStyle, называемый GrokNet, обеспечивает визуальное распознавание функции электронной коммерции Facebook, Facebook Marketplace.

Выявление закономерностей в моде

Хотя визуальному распознаванию ИИ еще предстоит пройти путь, чтобы стать точным при любых условиях, Бала и ее группа в настоящее время работают над другим проектом, который предполагает, что он надежен. Они исследуют разветвления предпосылки о том, что хороший алгоритм распознавания, получающий все изображения мира, сможет точно определить закономерности в данных. В качестве первого теста они создали алгоритм под названием StreetStyle, который мог прочесывать изображения и определять уникальные аспекты моды, характерные для определенных мест или времени года.

"По сути, мы изучили все изображения мира, чтобы понять культурный феномен, и это было невероятно увлекательно".

«Даже если вы никогда не бывали в какой-то части мира, анализируя фотографии оттуда, вы можете понять, как люди одеваются в этом месте», — объясняет Бала. «Мы запустили наш алгоритм распознавания в поисках фирменной одежды из разных уголков мира и нашли всевозможные совпадения. В Каире выскочил хиджаб. В Лагосе это был геле, традиционный головной убор, который женщины носят очень своеобразно».

Исследователи опубликовали статью о более продвинутой форме алгоритма под названием GeoStyle. В нем также искали всплески, внезапные появления определенных предметов или цветов одежды. «Выскочило 17 марта, — говорит Бала. «Многие люди в Соединенных Штатах носят в этот день зеленое, потому что это День Святого Патрика. Мы также видели культурные или спортивные мероприятия: Кубок Стэнли, чемпионат мира. Это были времена, когда фанаты либо выкладывали фотографии своих спортивных героев, либо одевались как они. По сути, мы изучали все изображения мира, чтобы понять культурный феномен, и это было невероятно увлекательно».

Выявление глобальных тенденций в климате и сельском хозяйстве

Работая с исследователями из Корнельского института цифрового сельского хозяйства, Бала в настоящее время применяет последнюю версию алгоритма к спутниковым изображениям, пытаясь обнаружить такие вещи, как глобальные изменения климата и тенденции в отношении здоровья сельскохозяйственных культур.

«Предсказание — одна из наших целей, — говорит она. «Если мы увидим тенденции, сдвинутые во времени в одном месте, и начнем видеть начало той же тенденции в другом месте, мы сможем предсказать, куда пойдет это явление. В Интернете размещено невероятное количество визуальных данных о нашей планете и нашей жизни. Мы можем так много узнать о том, кто мы такие, и о состоянии нашей планеты, анализируя ее».

Первоначально опубликовано на веб-сайте Cornell Research. Все права защищены. Чтобы получить информацию о законном использовании или запросить разрешения, отправьте электронное письмо по адресу [email protected].

Исследования Корнелла развиваются быстро. Следите за нашей ежемесячной электронной новостной рассылкой.

Алгоритмы, основанные на человеческом восприятии