Дэвид Самуэль и Навин Кумар

Обзор

Поиск по визуальным атрибутам может значительно улучшить пользовательский опыт и улучшить поисковую оптимизацию для домашних и туристических сайтов. Хотя Zillow, Redfin, Airbnb и TripAdvisor уже имеют некоторые метаданные об удобствах собственности, они могут расширять доступные для поиска атрибуты, анализируя изображения собственности с помощью моделей видения.

В этом посте мы делимся нашим первоначальным подходом к модели с несколькими выстрелами для прогнозирования таких атрибутов недвижимости, как вид, кухонный остров, бассейн, высокие потолки, паркетные полы, камин и т. Д. Поскольку эти атрибуты часто зависят от помещения и контекста, мы начинаем с точная модель классификации для группировки наших изображений по внутренним и внешним параметрам собственности.

В процессе обучения нашей исходной модели типа комнаты мы замечаем, что некоторые из этих богатых атрибутов легко разделяются в platform.ai.

Фон

Предыдущая работа была сосредоточена на использовании изображений для улучшения оценки цены [1], однако дополнительный выигрыш от добавления функций изображения в модели ценообразования был минимальным; Улучшение на 2,3% по сравнению с использованием нескольких обычных атрибутов, таких как местоположение и размер собственности. Хотя данные о ценах на построение этих моделей были легко доступны, существует нехватка наборов данных для прогнозирования разнообразных атрибутов, таких как вид, кухонный остров, бассейн, высокие потолки, паркетные полы, камин и т. Д.

Наш исходный набор данных, ранее использовавшийся при оценке цен [1], состоит из 146 791 изображения и семи классов: гостиная, столовая, спальня, ванная комната, кухня, интерьер и экстерьер.

Ванная комната - это наиболее недопредставленный класс, с почти вдвое меньшим количеством изображений, чем в любом другом классе. Мы устранили этот дисбаланс классов, используя метод fastai vision.transform [4], чтобы передискретизировать данные, используя стандартные аугментации изображений.

Изображения были предварительно обработаны с использованием встроенных преобразователей fast.ai. Данные были случайным образом разделены на 60%, проверку 20% и тест 20%.

Модель была инициализирована весами ImageNet-ResNet34. Настраиваемая голова сети была обучена в течение 3 эпох, после чего была разморожена вся сеть и произведена точная настройка еще на 10 эпох с использованием различающейся скорости обучения. Точная настройка позволила улучшить соответствие модели, достигнув общей точности набора тестов: 97%.

За счет увеличения пропускной способности сети до ResNet50 была достигнута конечная точность 98% - значительное улучшение по сравнению с точностью 91% предыдущих результатов [1].

Создание богатого набора данных атрибутов

Мы создали обширный набор атрибутных данных, просканировав веб-сайты со списком объектов недвижимости. Сканер захватил как изображения, так и интересующие атрибуты. Всего было получено 18 790 объявлений и 350 000 изображений.

Распределение классов объектов

Наш веб-парсер захватил неструктурированный HTML-код и извлек расширенные атрибуты, содержащиеся в таблице сведений о листингах.

Окончательный набор данных состоит из 18 790 отдельных списков, каждый из которых содержит в среднем 21 изображение. Мы определили несколько деталей, которые можно увидеть на фотографиях, таких как бассейны, патио, кухонные острова и камины. Почти половина объявлений в нашем наборе данных имеют бассейн или патио, и только около 25 объявлений имеют винные погреба. Кроме того, внешний вид атрибута можно увидеть в разных местах; современные винные погреба, как правило, находятся над землей.

Прогнозы

Мы загрузили нашу модель и выборку из 20 000 изображений из нашего набора данных в platform.ai, чтобы сравнить ее производительность с предварительно созданной моделью ImageNet. Наша модель формирует аккуратные кластеры, легко различимые на глаз, из одинаковых интересных атрибутов, таких как камины, бассейны и кухонные острова. Для сравнения, ImageNet имеет тенденцию формировать более широкие кластеры с разными атрибутами.

Используя прогнозы в качестве наглядных пособий, группы интересов были выделены и выборочно отфильтрованы с помощью platform.ai. Увеличенные виды проекции нашей модели показывают три богатые особенности, которые мы определили с помощью нашей модели: камин, кухонный остров и бассейн. По сравнению с ImageNet, мы можем видеть более многочисленные кластеры, тесно связанные с расширенными атрибутами, по сравнению с помеченными функциями класса комнаты.

Кластерный анализ

После загрузки наших прогнозов мы смогли оценить решение для кластеризации, сравнив оценку силуэта нашей модели с ImageNet. Результаты показывают, что наша оценка силуэта значительно выше, чем у ImageNet по результатам t-теста при k = 5 К-средних кластеров. Оценка силуэта. Таким образом, наша модель создает похожие кластеры более последовательно, чем ImageNet-ResNet.

Заключение

Применяя современные методы машинного обучения, мы разработали модель компьютерного зрения, которая не только предсказывает классы комнат, но и более глубокие атрибуты, присутствующие в домах, в которых мы живем. Она работала лучше, чем ImageNet, за счет более тесной кластеризации наших вложенных атрибутов, позволяя визуально разделять группы, которые нужно извлечь и пометить. Разработка точной модели поиска по атрибутам может быть реализована как важный инструмент поиска при поиске подходящего дома или аренды.

Мы планируем развивать нашу модель и дальше, используя ограниченные помеченные данные из нашего набора данных и сеть отношений (RN) [2] для классификации нескольких атрибутов в изображениях.

Благодарности

Мы хотели бы поблагодарить Аршака Наврузяна за его наставническую поддержку и руководство во время этого проекта. Также хотим поблагодарить команду fastai за удобную библиотеку глубокого обучения.

использованная литература

  1. Poursaeed, Omid et al. Визуальная оценка недвижимости. Машинное зрение и приложения 29 (2018): 667–676.
  2. Санторо, Адам и др. Простой нейросетевой модуль для реляционных рассуждений. НИПС (2017).
  3. Он, Кайминг и др. Глубокое остаточное обучение для распознавания изображений. Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR) 2016 г. (2016 г.): 770–778.
  4. Ховард, Джереми и др. Библиотека фастай. 2019.
  5. Кларк, Адриан и др. Оптимизация гиперпараметров для наборов данных изображений в fastai. 2019 г.