Превратите животных из приютов в домашних животных

От 5 до 7 миллионов животных ежегодно попадают в приюты в Соединенных Штатах. Хотя это число существенно уменьшилось в последние годы, примерно 70% этих животных не находят дома и в конечном итоге подвергаются эвтаназии. К сожалению, приюты для животных сталкиваются с серьезными проблемами, пытаясь приютить этих животных. Правильное обучение персонала и волонтеров - один из важнейших вопросов, по мнению Petfinder. Кроме того, приюты для животных - одно из самых распространенных мест, куда люди отправляются выращивать свою пушную семью, и проблемы, связанные с обучением персонала, могут иметь негативные последствия как для животных, так и для семей.

Одна из обязанностей сотрудников приюта - предоставлять информацию о каждом животном через онлайн-профиль, например, на сайте Petfinder. Эти профили часто являются первой точкой контакта животного из приюта с общественностью, поэтому очень важно, чтобы эти профили производили хорошее первое впечатление. Как и в случае с любым другим продуктом, продажа животного может быть решающей.

Чтобы лучше понять, как профили домашних животных влияют на их усыновление, был создан Pet Appeal. Pet Appeal - это аналитическое погружение в информацию о профилях домашних животных в Интернете, цель которого - предоставить персоналу приюта, волонтерам и приемным родителям животных информацию, необходимую для создания успешного профиля и превращения животного из приюта в домашнего питомца.

База данных Petfinder

Для создания Pet Appeal данные профиля питомца были собраны из Petfinder с использованием их общедоступного API для запроса их общенациональной базы данных. Их API можно использовать для сбора информации как о приютах для животных, так и о животных, которые проживали в этих приютах.

Вот разбивка метаданных, предоставленных Petfinder:

Хотя информация охватывает основы, которые интересуют потенциальных владельцев домашних животных, есть несколько предостережений в отношении этого набора данных при выполнении прогнозного моделирования.

  • Во-первых, в базе данных Petfinder не ведется текущий учет каждого питомца; есть одна запись, которая перезаписывается каждый раз, когда происходит «обновление» животного, т. е. обновленные снимки, стерилизация или стерилизация, усыновление и т. д. Невозможно извлечь информацию о продолжительности или траектории пребывания животного в любом приюте.
  • Во-вторых, база данных регулярно очищается от данных. Запросы в хорошо зарекомендовавшие себя крупные приюты для животных могут дать результаты только за несколько месяцев. Эти исторические данные могут быть чрезвычайно ценными для улучшения текущих стандартов и методов работы с убежищами и должны оставаться в системе постоянно.
  • Наконец, что наиболее важно для Pet Appeal, статус животного отображается как «A» для усыновляемого, «H» для удержания, «P» для ожидает и 'X' для удалено. Животные, отмеченные знаком «X», могли быть усыновлены или усыплены; это неясно на основании данных, полученных через их базу данных. Эта неоднозначность вызывает серьезные трудности при работе с данными и при попытке выяснить, что делает животное приемлемым.

Чтобы обойти проблему Х, был составлен список безопасных приютов с помощью Beautiful Soup из The nØkill Network. Этот список использовался для фильтрации результатов, полученных с помощью API-интерфейса Petfinder, и гарантировал, что животные, помеченные как X, действительно были приняты. Почтовый индекс каждого приюта использовался для получения идентификаторов приютов с помощью метода shelter.find, которые впоследствии использовались для запроса информации о домашних животных с помощью метода pet.find. Данные о домашних животных были собраны в 782 приютах в 45 штатах.

Более широкая картина

Прежде чем использовать данные Petfinder для моделирования, необходимо было получить общую картину набора данных. Давайте посмотрим, какие типы животных Petfinder включает в свою базу данных, а также пропорции каждого типа в нашем наборе данных из 32 757 животных.

Хотя база данных включает в основном кошек и собак, есть также несколько других типов животных; на самом деле категорий настолько много, что все «маленькие и пушистые» животные (например, хомяки, песчанки, морские свинки и т. д.) включены в одну категорию, а все рептилии и рыбы - в другую. Во избежание каких-либо отличий в результатах, поскольку между решением усыновить лошадь или усыновить собаку, вероятно, существуют значительные различия, в окончательный анализ были включены только кошки и собаки. Удаление всех других животных из набора данных привело к сокращению общего размера выборки до 31 806 животных.

Затем было необходимо сравнение двух классов. Сколько кошек и собак по-прежнему являются животными в приютах, т. Е. доступными, и сколько в настоящее время являются домашними животными, т. Е. приемными?

Неудивительно, что в категории усыновленных животных было больше, чем в категории доступных. Интуитивно это имеет смысл, поскольку можно было бы ожидать, что с учетом данных за годы (текущий набор данных охватывает период с 2003 по 2017 гг.) Больше животных покинет приют, чем останется в приюте. Подвыборка принятых животных была взята для создания баланса классов для беспристрастного моделирования.

Можем ли мы предсказать усыновление?

Была выбрана случайная модель леса, чтобы классифицировать каждое животное как доступное или как усыновленное, то есть животное из приюта или домашнее животное. Случайный лес - это метод ансамбля, в котором вместе используются несколько слабых деревьев решений. Каждое дерево в лесу использует независимое подмножество обучающих данных, метод, называемый упаковкой, для обучения, а затем каждое дерево голосует за класс для данной выборки, что приводит к повышению точности и снижению чрезмерной подгонки, что является существенная проблема при использовании единственного дерева решений.

Случайный лес был выбран моделью классификации для текущего набора данных по двум основным причинам: 1) набор функций был ограничен; В модели использовалось только 17 функций, и каждое дерево в случайном лесу использует рандомизированное подмножество доступных функций для создания разнообразного леса. 2) Текущий набор данных в основном представляет собой категориальные данные, с которыми хорошо справляются модели случайной классификации лесов.

Взгляд на кривую рабочей характеристики приемника (ROC) показывает общую прогностическую способность модели, которая работает намного выше вероятности. Метрика площади под кривой (AUC) может использоваться для количественной оценки производительности модели; идеальная модель будет иметь AUC, равную 1,0, что указывает на то, что она каждый раз точно классифицирует каждый образец. И наоборот, AUC 0,5 указывает на случайную вероятность; модель работает не лучше, чем случайное предположение.

Параметры модели были настроены с использованием поиска по сетке, в результате чего была получена модель случайного леса с 90 оценками (т.е. количеством деревьев решений) и максимальной глубиной 15. Перекрестная проверка модели показала общую точность 69,7%.

Наиболее важными классификационными метриками для проблемы, которую пытается решить Pet Appeal, являются положительная и отрицательная прогностическая ценность. Ниже представлена ​​матрица неточностей, которая показывает положительное прогнозируемое значение в верхнем левом углу и отрицательное прогнозируемое значение в правом нижнем углу. Положительные и отрицательные прогностические значения определяют, насколько часто доступные животные и усыновленные животные, соответственно, классифицируются правильно. Текущая модель правильно классифицирует доступных животных в 73% случаев и приемных животных в 66% случаев.

Поскольку цель Pet Appeal - выяснить, что приводит к принятию, необходимо более глубоко погрузиться в особенности, которые в наибольшей степени повлияли на модель. Ниже значения функций, определенные с помощью модели случайного леса, упорядочены от наиболее важных вверху к наименее важным.

Модель классификации показала, что характеристики, созданные на основе текстового описания животного, на самом деле были наиболее важными характеристиками при определении статуса животного, намного перевешивая любые атрибуты самого животного. Мы более подробно рассмотрим описания в следующем разделе.

Что в описании?

Чтобы проанализировать описание с помощью методов машинного обучения, необходимо извлечь функции из неструктурированного текста. Для этого был проведен базовый подсчет слов, и каждое описание было обработано анализом тональности с использованием пакета TextBlob. Анализ тональности позволил выявить две характеристики: субъективность описания, которая оценивается по шкале от 0 до 1, и полярность описания, которая оценивается по шкале от -1 до 1.

Поскольку длина описания была наиболее важной, было необходимо определить, приводят ли более длинные или короткие описания к усыновлению.

Несмотря на то, что распределения для каждого класса схожи, следует отметить два момента: описания содержат около 100 слов, и что-то намного лучше, чем ничего. Самое поразительное, что можно отметить из гистограмм выше, - это то, что в группе «Доступные» почти на 600 животных больше, чем в группе «Принято», если описание не введено. Профили домашних животных без описания могут привести к тому, что незаинтересованные онлайн-пользователи в конечном итоге перейдут к следующему животному.

Затем мы рассмотрим результаты анализа тональности и определим, что делает описание положительным, а что отрицательным и как эти рейтинги можно улучшить.

Вот пример положительного описания:

Я очень милая и игривая !! Пожалуйста, удочери меня !!

Это описание имело рейтинг полярности 1 и рейтинг субъективности 0,845. Использование положительных описательных слов, таких как «милый» и «игривый», определенно помогло повысить позитивность этого описания, но акцент с помощью восклицательных знаков продвинул это описание к получению такой положительной оценки полярности.

И наоборот, вот отрицательное описание:

Очень стеснительный

Это описание имеет рейтинг полярности -0,65 и рейтинг субъективности 0,65. Само слово «застенчивый» имеет рейтинг полярности -0,5 и рейтинг субъективности 0,5, но добавление слова «очень» усилило негативность этого описания. Расширение этого описания путем добавления хотя бы одного положительного дескриптора могло бы значительно повысить рейтинг полярности, например, «Очень скромно, но сладко» имеет полярность -0,15.

Резюме и дальнейшие направления

Пока что у Pet Appeal было многообещающее начало. Используя выбранный объем данных профиля, доступных в Petfinder, и ограниченный набор функций, Pet Appeal уже может классифицировать животное как животное для приюта или домашнее животное с общей точностью 69,7% и определил, что описание является важная часть онлайн-профиля питомца.

Следующие шаги для Pet Appeal будут заключаться в том, чтобы копнуть еще глубже в описаниях, используя обработку естественного языка, чтобы точно определить, какие части описания имеют решающее значение для усыновления домашних животных. Следует ли указывать подробную контактную информацию? Действительно ли такая мольба, как пожалуйста, удочери меня!, Имеет значение? Pet Appeal надеется найти эти ответы и помочь приютам написать подробные и привлекательные описания домашних животных, которые превратят онлайн-зрителей в активных посетителей приюта.

Наконец, Pet Appeal планирует включить анализ фотографий, загруженных в Petfinder. Изображения явно важны; они - первое, что мы видим, и они либо вызывают у нас интерес и вызывают щелчок, либо заставляют нас продолжать прокрутку. Но что делает фотографию домашнего животного привлекательной? Имеет ли значение артистизм? Будет ли публикация фотографии животного в клетке вызывать у зрителя сочувствие или отступление? Pet Appeal хочет ответить на эти вопросы и помочь каждому животному проявить себя с лучшей стороны.



Бекка Робинс - бывший научный сотрудник Insight Data Science (NYC Fall 2017) и обученный исследователь. Ей посчастливилось иметь своего лучшего друга Майло на протяжении 17 лет. Бекка и Майло вместе приехали из своего родного штата Мичиган, чтобы вместе отправиться в приключения в Германии и Англии, где Бекка училась в аспирантуре, а Майло любил загорать и спать. Майло был усыновлен из Гуманного общества Среднего Мичигана в 1996 году.