Дэвид Самуэль и Навин Кумар
Обзор
Поиск по визуальным атрибутам может значительно улучшить пользовательский опыт и улучшить поисковую оптимизацию для домашних и туристических сайтов. Хотя Zillow, Redfin, Airbnb и TripAdvisor уже имеют некоторые метаданные об удобствах собственности, они могут расширять доступные для поиска атрибуты, анализируя изображения собственности с помощью моделей видения.
В этом посте мы делимся нашим первоначальным подходом к модели с несколькими выстрелами для прогнозирования таких атрибутов недвижимости, как вид, кухонный остров, бассейн, высокие потолки, паркетные полы, камин и т. Д. Поскольку эти атрибуты часто зависят от помещения и контекста, мы начинаем с точная модель классификации для группировки наших изображений по внутренним и внешним параметрам собственности.
В процессе обучения нашей исходной модели типа комнаты мы замечаем, что некоторые из этих богатых атрибутов легко разделяются в platform.ai.
Фон
Предыдущая работа была сосредоточена на использовании изображений для улучшения оценки цены [1], однако дополнительный выигрыш от добавления функций изображения в модели ценообразования был минимальным; Улучшение на 2,3% по сравнению с использованием нескольких обычных атрибутов, таких как местоположение и размер собственности. Хотя данные о ценах на построение этих моделей были легко доступны, существует нехватка наборов данных для прогнозирования разнообразных атрибутов, таких как вид, кухонный остров, бассейн, высокие потолки, паркетные полы, камин и т. Д.
Наш исходный набор данных, ранее использовавшийся при оценке цен [1], состоит из 146 791 изображения и семи классов: гостиная, столовая, спальня, ванная комната, кухня, интерьер и экстерьер.
Ванная комната - это наиболее недопредставленный класс, с почти вдвое меньшим количеством изображений, чем в любом другом классе. Мы устранили этот дисбаланс классов, используя метод fastai vision.transform [4], чтобы передискретизировать данные, используя стандартные аугментации изображений.
Изображения были предварительно обработаны с использованием встроенных преобразователей fast.ai. Данные были случайным образом разделены на 60%, проверку 20% и тест 20%.
Модель была инициализирована весами ImageNet-ResNet34. Настраиваемая голова сети была обучена в течение 3 эпох, после чего была разморожена вся сеть и произведена точная настройка еще на 10 эпох с использованием различающейся скорости обучения. Точная настройка позволила улучшить соответствие модели, достигнув общей точности набора тестов: 97%.
За счет увеличения пропускной способности сети до ResNet50 была достигнута конечная точность 98% - значительное улучшение по сравнению с точностью 91% предыдущих результатов [1].
Создание богатого набора данных атрибутов
Мы создали обширный набор атрибутных данных, просканировав веб-сайты со списком объектов недвижимости. Сканер захватил как изображения, так и интересующие атрибуты. Всего было получено 18 790 объявлений и 350 000 изображений.
Распределение классов объектов
Наш веб-парсер захватил неструктурированный HTML-код и извлек расширенные атрибуты, содержащиеся в таблице сведений о листингах.
Окончательный набор данных состоит из 18 790 отдельных списков, каждый из которых содержит в среднем 21 изображение. Мы определили несколько деталей, которые можно увидеть на фотографиях, таких как бассейны, патио, кухонные острова и камины. Почти половина объявлений в нашем наборе данных имеют бассейн или патио, и только около 25 объявлений имеют винные погреба. Кроме того, внешний вид атрибута можно увидеть в разных местах; современные винные погреба, как правило, находятся над землей.
Прогнозы
Мы загрузили нашу модель и выборку из 20 000 изображений из нашего набора данных в platform.ai, чтобы сравнить ее производительность с предварительно созданной моделью ImageNet. Наша модель формирует аккуратные кластеры, легко различимые на глаз, из одинаковых интересных атрибутов, таких как камины, бассейны и кухонные острова. Для сравнения, ImageNet имеет тенденцию формировать более широкие кластеры с разными атрибутами.
Используя прогнозы в качестве наглядных пособий, группы интересов были выделены и выборочно отфильтрованы с помощью platform.ai. Увеличенные виды проекции нашей модели показывают три богатые особенности, которые мы определили с помощью нашей модели: камин, кухонный остров и бассейн. По сравнению с ImageNet, мы можем видеть более многочисленные кластеры, тесно связанные с расширенными атрибутами, по сравнению с помеченными функциями класса комнаты.
Кластерный анализ
После загрузки наших прогнозов мы смогли оценить решение для кластеризации, сравнив оценку силуэта нашей модели с ImageNet. Результаты показывают, что наша оценка силуэта значительно выше, чем у ImageNet по результатам t-теста при k = 5 К-средних кластеров. Оценка силуэта. Таким образом, наша модель создает похожие кластеры более последовательно, чем ImageNet-ResNet.
Заключение
Применяя современные методы машинного обучения, мы разработали модель компьютерного зрения, которая не только предсказывает классы комнат, но и более глубокие атрибуты, присутствующие в домах, в которых мы живем. Она работала лучше, чем ImageNet, за счет более тесной кластеризации наших вложенных атрибутов, позволяя визуально разделять группы, которые нужно извлечь и пометить. Разработка точной модели поиска по атрибутам может быть реализована как важный инструмент поиска при поиске подходящего дома или аренды.
Мы планируем развивать нашу модель и дальше, используя ограниченные помеченные данные из нашего набора данных и сеть отношений (RN) [2] для классификации нескольких атрибутов в изображениях.
Благодарности
Мы хотели бы поблагодарить Аршака Наврузяна за его наставническую поддержку и руководство во время этого проекта. Также хотим поблагодарить команду fastai за удобную библиотеку глубокого обучения.
использованная литература
- Poursaeed, Omid et al. Визуальная оценка недвижимости. Машинное зрение и приложения 29 (2018): 667–676.
- Санторо, Адам и др. Простой нейросетевой модуль для реляционных рассуждений. НИПС (2017).
- Он, Кайминг и др. Глубокое остаточное обучение для распознавания изображений. Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR) 2016 г. (2016 г.): 770–778.
- Ховард, Джереми и др. Библиотека фастай. 2019.
- Кларк, Адриан и др. Оптимизация гиперпараметров для наборов данных изображений в fastai. 2019 г.