IBM DS0720EN ПРОЕКТ CAPSTONE ПО НАУКЕ НА ДАННЫЕ И МАШИННОМУ ОБУЧЕНИЮ

АННОТАЦИЯ

В отчете представлен анализ общедоступных наборов данных Департамента жилищного строительства и развития города Нью-Йорка о жалобах, не связанных с чрезвычайными ситуациями, чтобы помочь агентству справиться с большим объемом жалоб с более высокой операционной эффективностью. Мы пришли к выводу, что жалоба на отопление и сочетание отопления и горячего водоснабжения — это область, на которой город должен сосредоточиться в первую очередь, причем больше всего пострадал район Бронкса. Мы рекомендуем алгоритм классификации KNN для прогнозирования будущих жалоб с точностью 98% по шкале f-1 на основе характеристик здания.

ОГЛАВЛЕНИЕ:

  1. Абстрактный
  2. Введение
  3. Аналитический подход и требования к данным
  4. Данные
  5. Результаты
  6. Обсуждение
  7. Вывод
  8. использованная литература
  9. Приложения

ВВЕДЕНИЕ

Город Нью-Йорк использует портал NYC311, чтобы сообщать о проблемах и отправлять запросы на неэкстренные услуги местным властям. Портал используют разные агентства, в зависимости от проблемы. Это тематическое исследование посвящено сохранению и развитию жилищного фонда города Нью-Йорка, в котором рассматриваются жалобы на здания и жилые дома. После значительного увеличения количества жалоб агентству нужны ответы на следующие вопросы, чтобы помочь справиться с объемом и повысить эффективность операций:

  1. На каком типе жалоб Департамент сохранения и развития жилищного фонда города Нью-Йорка должен сосредоточиться в первую очередь?

2. Следует ли Департаменту сохранения и развития жилищного фонда г. Нью-Йорка сосредоточить внимание на каком-либо конкретном наборе районов, почтовых индексов или улиц (где жалобы являются серьезными) для конкретного типа жалоб, которые вы указали в ответе на вопрос 1?

3. Имеет ли тип жалобы, указанный вами в ответ на вопрос 1, очевидную связь с какой-либо конкретной характеристикой или характеристиками домов или зданий?

4. Можно ли построить прогностическую модель для будущего предсказания возможности жалоб того типа, который вы определили в ответ на вопрос 1?

Примечание: преподаватели курса определили предысторию и постановку задачи [1]

АНАЛИТИЧЕСКИЙ ПОДХОД И ТРЕБОВАНИЯ К ДАННЫМ

Нам потребуется ряд описательной аналитики и предиктивных аналитических подходов для удовлетворения бизнес-требований. Некоторые из вопросов требуют понимания текущей ситуации с точки зрения типов жалоб, затронутых географических районов и закономерностей между характеристиками жилья и возможностью дефекта, в то время как для прогнозирования возникновения жалоб требуется подход прогнозной аналитики, включая методы машинного обучения. В этом разделе описывается подход, а также требования к данным для каждой из выбранных стратегий.

Определите наиболее распространенный тип жалобы:

Подход описательной аналитики выявит наиболее распространенный тип жалоб. Метод может быть в форме отчета о сортировке и агрегации фреймов данных с возможной поддержкой визуализации. Нам потребуются, как минимум, данные о типах жалоб, сгруппированных по жалобе. Данные о дате получения агентством жалобы, статусе жалобы, открытости или закрытии жалобы, серьезности дела помогут определить срочность исправления жалобы и помогут установить приоритеты.

Определите области, на которые больше всего влияет самый распространенный тип жалоб

Вопрос также требует понимания текущего состояния. Таким образом, мы будем использовать метод описательной аналитики. Чтобы определить, на какие районы и почтовые индексы следует ориентироваться для типа жалобы, нам нужны географические данные по почтовым индексам.

Связь между характеристиками жилья и жалобами

Чтобы ответить на вопрос, подход описательной аналитики, включающий визуализацию, основные статистические показатели, такие как корреляция между числовыми переменными, или дисперсионный анализ для категорий (если он доступен в наборе данных). Требуемые данные включают характеристики здания с адресом, который мы можем сопоставить с поданными жалобами. Кроме того, в базе данных жалоб жалобы должны иметь возможность привязать жалобу к адресу.

Прогнозная модель для основного типа жалоб

Мы будем использовать контролируемый алгоритм классификации, такой как KNN, SVM, логистическая регрессия и деревья решений, чтобы предсказать, будет ли здание иметь дефект или нет. Мы сравним производительность алгоритмов и порекомендуем наилучший подход, используя согласованные показатели. Алгоритмы потребуют числовых входных данных и метки. Для наилучшего сравнения моделей цель должна быть установлена ​​​​в двоичное значение True/False.

ДАННЫЕ

Наборы данных

Для нашего анализа и прогнозов мы будем использовать два набора данных Департамента сохранения и развития жилищного фонда города Нью-Йорка.

Набор данных жалоб 311

Набор данных содержит записи о 311 запросах в Нью-Йорке с 1 января 2010 года. Набор данных содержит 41 столбец, описывающий тип жалобы, ее местонахождение и статус, среди многих других.

Полный набор данных содержит 25 миллионов строк, каждая из которых представляет собой 311 запросов на обслуживание. [2]

Мы можем найти полное описание для каждого имени столбца, описание, тип данных на веб-сайте Департамента жилищного строительства и развития города Нью-Йорка [2]

База работает и обновляется ежедневно. Поэтому, чтобы последовательно сравнивать результаты, IBM предоставила подмножество набора данных, охватывающее период с 1 января 2010 г. по февраль 2020 г., с данными, относящимися только к Департаменту сохранения и развития жилищного фонда.

Мы будем использовать эти данные, чтобы определить тип запроса на обслуживание, которому агентства города Нью-Йорка должны придать приоритетное значение, а также области, затронутые типом жалобы.

Набор данных PLUTO для жилья

Другим набором данных, предоставленным инструкторами курса, был файл данных «Первичный налог на землепользование» (PLUTO™), разработанный Департаментом городского планирования г. Нью-Йорка.

Мы будем использовать PLUTO™ DataFrame, чтобы обнаружить любую связь между жалобами и характеристиками здания. Полный набор данных, а также описание данных можно найти на веб-сайте правительства Нью-Йорка: [3]

Прием данных

Во-первых, мы импортировали набор данных «311» в фрейм данных pandas. Затем мы продолжаем исследовать область, на которую больше всего влияет выбранный тип жалобы, и подключаем дополнительные функции, специфичные для здания, к нашему DataFrame. Мы импортировали набор данных Bronx Pluto в другой фрейм данных. Набор данных включал информацию о различных измерениях площади и объема, номерах этажей, истории дат постройки и ремонта, почтовом индексе и координатах.

Объединить наборы данных

Теперь, когда у нас есть как набор данных о жалобах для основного типа жалоб, так и выбранная география и набор данных Bronx PLUTO, который дает необходимые функции, мы можем объединить их в одну таблицу с 86 324 записями.

Мы будем использовать «Правое соединение» для объединения наборов данных «311» и Bronx PLUTO. «Правильное соединение» позволяет нам сохранять записи о домах, а не в наборе данных жалоб.

Обработка данных

Сначала мы обрабатывали каждый DataFrame индивидуально. В рамках этого процесса мы работали с отсутствующими данными путем импутации, отбрасывая строки, где было важно иметь точные данные для соединения наборов данных, или удаляя полные столбцы, где данные были бесполезны или имели только один вариант.

Мы привели значения столбцов в правильный формат и удалили повторяющиеся записи.

Новые функции

  • «days_open», чтобы оценить количество дней, в течение которых жалоба оставалась нерассмотренной.
  • Бункеры, за которыми следует индикаторная переменная для столбца налоговых лотов, возвращаясь к исходному описанию набора данных PLUTO и узнавая, что целые числа представляют разные категории.
  • Функции для преобразования года постройки и года изменения в формат DateTime. Затем мы используем эти вновь созданные функции, чтобы получить количество лет, прошедших с момента постройки и изменения здания, в качестве возможных предикторов отказа.

Обработка объединенного фрейма данных

Как и прежде, мы заменяем любые записи отсутствующими значениями. На этот раз поля, связанные с полями жалоб (5356), будут относиться к зданиям, на которые жители Нью-Йорка не жаловались, поэтому мы оставляем их. Остальные 80 968 записей соответствуют журналам жалоб. В семидесяти пяти тысячах шестистах шестидесяти пяти строках отсутствовали признаки, связанные с жалобами. Нам также необходимо заменить отсутствующий «статус» или «уникальный ключ» на «no_complaints», чтобы отразить дома, жители которых не жаловались на отопление и горячую воду.

Исходные столбцы «город» и «тип жалобы» были удалены, так как они имели только одно уникальное значение. Открытые дни преобразованы в np.timedelta64 для дальнейшей обработки.

Последующий анализ будет сосредоточен на жалобах в Бронксе и на основном типе жалоб. В результате мы сократили записи с 2 130 400 до 408 970.

Для записей с «Уникальным ключом», связанным с жалобой, мы устанавливаем контролируемую метку на 1, иначе 0. Эта бинарная логика соответствует тому, есть ли у здания дефект или нет. Восемьдесят семьсот пятьдесят семь рядов имели статус закрытых, 5 356 жалоб не имели, а 211 были открыты. Далее мы создали индикаторные переменные для столбца «Статус».

Поезд / тестовый сплит

Затем окончательный кадр данных нормализуется, чтобы иметь нулевое среднее значение и единичную дисперсию. Наконец, мы разделили данные на обучающие (80%) и проверочные наборы (20%).

РЕЗУЛЬТАТЫ

ПРЕДВАРИТЕЛЬНЫЕ ВЫВОДЫ

Основной тип жалоб

Как показано ниже на рисунке. Основные жалобы по типам. При использовании 800 000 в качестве порогового значения тип(ы) жалоб, рекомендуемых для направления в Департамент жилищного строительства и развития г. Нью-Йорка, в первую очередь: «Отопление» 887850 и оба типа «Отопление/горячее водоснабжение» 1 261 574.

РАЙОНЫ, НАИБОЛЕЕ ЗАТРАТЕННЫЕ ЖАЛОБАМИ ИЗ-ЗА ТЕПЛА/ГОРЯЧЕЙ ВОДЫ

Район

В Бруклине в целом было наибольшее количество жалоб из всех районов, поэтому, если общее количество жалоб должно было повлиять на решение, муниципалитет мог бы отдать приоритет Бруклину.

  • Бруклин 1 731 202
  • БРОНКС 1 609 837
  • МАНХЭТТЭН 1 049 360
  • КОРОЛЕВА 641 741
  • СТАТЕН-АЙЛЕНД 87 187

Другой способ может состоять в том, чтобы принять оценку, используя открытые дела, и скорректировать оценку для каждого домохозяйства или количества зданий, чтобы увидеть, наблюдается ли в районе большее количество ожидающих рассмотрения жалоб, чем в среднем.

Тем не менее, бизнес-требование, установленное Департаментом жилищного строительства и развития, заключалось в том, чтобы сосредоточиться на основном типе жалоб, то есть на отоплении и горячей воде.

Жалобы на тепло и горячую воду по районам

Жалобы по почтовому индексу

Если мы посмотрим на почтовые индексы, то больше всего проблем с отоплением и горячей водой возникло с почтовым индексом 11 226 (Бруклин), где было зарегистрировано 41 786 жалоб. Если мы хотим более точно нацелиться на повышение уровня обслуживания, 10 основных почтовых индексов, на которых следует сосредоточиться, будут такими, как показано на рис. 7. Наиболее затронутые почтовые индексы.

Наиболее затронутый адрес

На Элмхерст-авеню, 89–21 поступило наибольшее количество жалоб. Обратите внимание, что вы получите другой список адресов, если будете спорить или вменять пропущенные значения по-другому.

Открыть обращения

В общей сложности 1 249 817 были закрыты, а 4640 были открыты на момент составления набора данных.

Сопоставление жалоб Open Top

АНАЛИЗ ИССЛЕДОВАТЕЛЬСКИХ ДАННЫХ

Возраст зданий

Большинству зданий более 80 лет, как видно из гистограммы возрастного распределения.

Тепловая карта корреляции

Было не так много признаков с сильной корреляцией. Следовательно, мы будем использовать порог 0,3, чтобы получить достаточную информацию для прогнозов.

Используя этот порог, мы сузили набор данных до следующих функций «BuiltFAR», «FacilFAR», «NumFloors», «ResidFAR», «supervised_label», «Status_Closed», «XCoord». На рисунке Correlation Shortlisted представлена ​​корреляция между функциями, включенными в короткий список.

Непрерывные числовые переменные

Все переменные, включенные в короткий список, визуально демонстрировали признаки прямой положительной связи с прогнозируемым значением, за исключением XCoord.

Коэффициент застроенной площади

Здания, на которые поступили жалобы, как правило, имели более высокий коэффициент площади застроенных этажей.

Максимально допустимая общественная льгота FAR

Гистограмма помогает нам увидеть, что здания, в которых нет жалоб на отопление и горячее водоснабжение, как правило, имеют меньшую и более равномерно распределенную допустимую площадь общественных объектов. Соотношение общей площади/площади объекта было выше среди зданий с выбранным дефектом.

Количество этажей

Этажность была ниже для здания без дефектов.

Максимально допустимая площадь пола (ResidFAR)

Здания с жалобами, как правило, имели более высокий коэффициент максимально допустимой жилой площади.

Спустя годы

В целом здания были старыми; здания с дефектами имели относительно старые постройки. Интуитивно понятно, что здания с дефектами, как правило, старше (94 года против 84) и с момента ремонта прошло больше лет (29 против 22).

Прошло лет с момента изменения

Здания с дефектами, как правило, имеют более высокую долю единиц с изменениями, сделанными от 25 до 50 лет.

Сводка непрерывных переменных:

В среднем здания, в которых произошел дефект, имели больше этажей (5,8 против 2,5), более высокое соотношение помещений к количеству этажей (4,9 против 3,3), более высокое максимально допустимое общественное благоустройство (3,53 против 1,91).

Почтовые индексы

Мы видим, что между почтовыми индексами существует разница между средним возрастом и количеством жалоб на здания.

КОРРЕЛЯЦИЯ ПИРСОНА И ПРИЧИННОСТЬ

P-значение для «BuiltFAR», «FacilFAR», «NumFloors», «ResidFAR» составляло ‹0,001. Мы говорим, что есть убедительные доказательства того, что корреляция значительна.

А как насчет других слабо коррелированных переменных? «Годы с момента постройки», «Годы с момента внесения изменений», «Координата X», «Координата Y» также являются статистически значимыми.

ANOVA: ДИСПЕРСИОННЫЙ АНАЛИЗ

Дата постройки и отопление и горячая вода

Разница между зданиями с дефектами и зданиями без дефектов имеет большое число ANOVA и низкое значение p_value, что означает, что разница является статистически значимой.

Дата постройки и отопление и горячая вода

Бесконечно большое значение f и нулевое значение p указывают на то, что взаимосвязь между измененными годами и дефектами значительна.

Компоненты в лотах и ​​запросы на обслуживание

Разница между лотами статистически значима.

ЛЕНТА НОВОСТЕЙ

Поступившие жалобы (выделены синим цветом), по-видимому, следуют сезонной схеме, пик которой приходится на зимний сезон с относительно быстрым устранением. Прогнозирование зданий, в которых могут возникнуть проблемы с отоплением и горячей водой, может помочь выровнять ресурсы за счет профилактического обслуживания в непиковый летний сезон. Это позволит агентству быстрее задействовать те же ресурсы в зимние месяцы.

Важные переменные и окончательный кадр данных

Мы лучше поняли наши данные и то, какие признаки мы будем использовать для прогнозирования вероятности возникновения неисправности отопления и горячей воды в здании. Теперь мы сузили список до следующих переменных:

Непрерывные числовые переменные:

  • ВстроенныйFAR
  • FacilFAR
  • количество этажей
  • ResidFAR

Числовые переменные ‹0,2 коэффициент:

  • Годы_С_Построения
  • Years_Since_Alt1

Окончательный фрейм данных

Окончательная нормализация кадра данных

Затем окончательный кадр данных нормализуется, чтобы иметь нулевое среднее значение и единичную дисперсию.

Разделение набора для обучения и проверки

Наконец, мы разделили данные на обучающие (80%) и проверочные наборы (20%).

МЕТОДОЛОГИЯ

Теперь, когда наш набор данных подготовлен для выбранной нами методологии, чтобы иметь возможность прогнозировать жалобы на отопление, отопление и горячую воду, мы будем использовать такие модели классификации, как:

  • K Ближайший сосед (KNN)
  • Древо решений
  • Машина опорных векторов
  • Логистическая регрессия

Сначала мы выбираем лучшие параметры, а затем для отдельной модели, а затем сравниваем производительность между моделями на проверочном наборе.

K БЛИЖАЙШИЙ СОСЕД (KNN)

Попробовав разные K, K = 2 дает самую высокую точность прогноза на уровне 98%.

ДЕРЕВО РЕШЕНИЙ

Для дерева решений мы попытались определить минимальное значение параметра max_depth, улучшающее результаты. При максимальной глубине = 22 со средней точностью = 0,9833 и точностью улучшение начинает стабилизироваться.

МАШИНА ОПОРНЫХ ВЕКТОРОВ

Sigmoid не очень хорошо предсказывает метку 0, т. Е. Отсутствие дефектов в качестве доказательства низкой точности / отзыва ~ 30%. Оценка Жаккара также ниже, чем у трех других алгоритмов.

Мы выберем линейное ядро ​​как имеющее самую высокую минимальную точность отзыва, особенно для отрицательной метки для дальнейшего сравнения. Для SVM есть выбор применяемых ядер: линейное, поли, RBF или сигмовидное. Мы протестировали метрики, используя каждый из вариантов, чтобы выбрать оптимальный, что привело к следующим результатам.

Линейный

Полигон

РБФ

Сигмоид

ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ

здесь не было существенной разницы между какими-либо показателями в четырех решателях (Newton-CG, LBFGS, Liblinear, SAG). Мы выберем Newton-CG для последующего сравнения моделей.

решатель NEWTON-CG

решатель LBFGS

решатель LIBLINEAR

решатель SAGA

Выбор модели

Набор данных представляет собой относительно искаженный набор данных: ожидается, что только 6,3% зданий не будут иметь сбоев. Чтобы отдать приоритет любому профилактическому обслуживанию в летний период, модель должна хорошо работать в классе без сбоев, чтобы внимание привлекали нужные здания.

Модель, которая лучше всего справляется как с прогнозированием класса «без дефектов» (87%), так и с общей оценкой f-1 (98%), — это KNN. Показатель f1 — для самого редкого класса KNN составил 87% против 71–71%, достигнутых другими алгоритмами.

Исключив с помощью KNN здания, которые вряд ли будут жаловаться на тепло и горячую воду, логистическая регрессия может сообщить о приоритизации случаев на основе вероятностей.

Обсуждение

Мы обнаружили, что дефект, на который жалоба, которую Департамент сохранения и развития жилья должен обратить в первую очередь (используя критерий департамента в 800 000 случаев), представляет собой сочетание дефектов отопления, горячего/водоснабжения и отопления. Бронкс является районом, который был наиболее пострадавшим районом, поэтому, используя это в качестве заданного критерия, район должен быть районом, на котором департамент должен сосредоточиться в первую очередь. Мы также определили конкретные почтовые индексы, улицы и адреса, на которые поступило больше всего жалоб. Понимание областей в сочетании с прогностической моделью может помочь направить усилия по планированию профилактического обслуживания и поиску любых основных причин, не отраженных в наборе данных. Особенности здания, связанные с размером здания и возрастом здания или последними изменениями, имели корреляцию и прогностическую ценность с дефектом. Мы визуализировали заметную разницу в зданиях с жалобами и увидели, что эта разница была статистически значимой. Свойства, связанные с размером здания, которые могли бы помочь прогнозировать отказ, включали: соотношение площади застроенных этажей, соотношение общей площади / площади здания, количество этажей, максимально допустимое соотношение площади жилых этажей. Сравнив разные модели по ряду параметров, я оценил производительность моделей по самому редкому классу (отсутствие дефектов) и общему баллу f-1. Модель, которая лучше всего справляется как с прогнозированием класса «без дефектов» (87%), так и с общей оценкой f-1 (98%), — это KNN.

ВЫВОД

Проведя описательный анализ, мы смогли определить основные жалобы и области, наиболее затронутые жалобами на отопление и горячее водоснабжение. Применяя описательную аналитику и статистический анализ, мы обнаружили закономерности в построении характеристик, которые можно использовать для прогнозирования сбоев. Мы использовали эти функции для создания ряда моделей машинного обучения, причем лучшая модель достигла точности 98%. Мы также обнаружили, что дефекты имеют сезонный характер с пиками в зимнее время года. Понимание сезонных закономерностей помогает службе сосредоточиться на правильной жалобе в нужной области, чтобы понять, какие характеристики здания связаны с дефектом.

Используя понимание текущего состояния и прогнозирование зданий с вероятными дефектами, Департамент сохранения и развития жилья теперь может выравнивать пропускную способность, упреждающе обслуживая объекты в течение лета, чтобы снизить рабочую нагрузку в пиковые месяцы. Это также сократит время, необходимое для разрешения жалоб.

БУДУЩЕЕ НАПРАВЛЕНИЕ

Курс определял цели и задачи, поэтому бизнес-понимание в основном выходило за рамки. Можно было бы выбрать другой аналитический подход, если бы понимание бизнеса было частью проекта. Например, если сосредоточиться на немедленном приоритете, выбрать открытые жалобы или применить взвешивание на основе количества дней, в течение которых жалоба остается нерассмотренной, это приведет к сосредоточению внимания на другом типе жалоб, то есть на общем строительстве или сантехнике. Литературный обзор или интервью с экспертами в предметной области могут определить факторы стоимости, веса или срочности, различающие категории, а не просто смотреть на общее количество. Аналогичным образом, при выборе географического района также можно было бы сравнить частоту жалоб с количеством домохозяйств, чтобы определить, затрагиваются ли конкретные районы непропорционально больше, чем другие. Абсолютные объемы жалоб не рассказывают всей истории.

Вместо использования классификационного подхода на этапе аналитического подхода мы могли бы в качестве альтернативы использовать численный прогноз, предсказывающий количество отказов. Численный прогноз поможет сконцентрироваться на зданиях, которые, вероятно, будут иметь наибольшее количество дефектов.

На этапе сбора данных специалист по данным может также изучить более раннюю версию наборов данных PLUTO, чтобы оценить количество лет, прошедших с тех пор, как в здании были какие-либо изменения во время дефекта, а не в настоящее время. Поскольку набор данных, содержащий жалобы, охватывает десять лет, в то время как набор данных с характеристиками здания показывает только последнее изменение, модель не «знает» о количестве лет на момент подачи жалобы, если здание имело изменение после предыдущей теплоты и жалоба на горячую воду. После определения наиболее затронутой географии для будущей подготовки набора данных можно использовать наборы данных для всех районов и жалоб для построения машинного обучения. Использование данных из всех районов для прогнозирования запросов на обслуживание должно повысить точность прогнозов, особенно для более сложных моделей. На этапе подготовки данных интервью с экспертами предметной области могут помочь выяснить, что влечет за собой этот дефект и операции по его устранению. Мы можем обнаружить, что уже есть доступные исследования характеристик зданий. Мы также можем выполнить стадию понимания и анализа данных, прежде чем спорить, поскольку мы можем потерять некоторые данные или «приписать» данные в процессе, что может привести к искажению картины. Набор перекрестной проверки использовался аналогично предыдущим лабораторным курсам машинного обучения (за исключением проекта Capstone Machine Learning), и мы использовали аналогичный подход в этом проекте. На практике на этапе моделирования обобщение модели было бы более точным, если бы мы использовали отдельный набор тестов в дополнение к набору перекрестной проверки. Во-вторых, мы могли бы также посмотреть на кривые обучения, чтобы определить, является ли модель подходящей или недостаточной, и протестировать различные параметры регуляризации для ее оптимизации. Этапы развертывания и обратной связи в цикле данных выходили за рамки.

ИСПОЛЬЗОВАННАЯ ЛИТЕРАТУРА

[1] Н. А. Тайюн, IBM DS0720EN Data Science and Machine Learning Capstone Project (2021), edx.org

[2] NYC DoITT, 311 запросов на обслуживание с 2010 г. по настоящее время (2021 г.), (nyc.gov)

[3] Вывод основного налога на землепользование (PLUTO™) (2021 г.), Департамент городского планирования (nyc.gov)

ПРИЛОЖЕНИЯ

ПРИЛОЖЕНИЕ 1: ПОСТАНОВКА ЗАДАЧИ

Жители Нью-Йорка используют систему 311, чтобы сообщать о несрочных проблемах местным властям. Эти задачи поручаются различным агентствам в Нью-Йорке. Департамент сохранения и развития жилья города Нью-Йорка — это агентство, которое рассматривает 311 жалоб, связанных с жильем и зданиями.

За последние несколько лет значительно увеличилось количество 311 жалоб, поступающих в Департамент охраны и развития жилищного фонда. Хотя эти жалобы не обязательно являются срочными, большой объем жалоб и их внезапное увеличение влияют на общую эффективность агентства.

Поэтому Департамент охраны и развития жилищного фонда обратился к вашей организации с просьбой помочь справиться с большим объемом жалоб, которые они получают каждый год (311).

Агентству нужны ответы на несколько вопросов. Данные и аналитика должны поддерживать ответы на эти вопросы. Это их вопросы:

  1. На каком типе жалоб Департамент сохранения и развития жилищного фонда города Нью-Йорка должен сосредоточиться в первую очередь?
  2. Следует ли Департаменту сохранения и развития жилищного фонда г. Нью-Йорка сосредоточить внимание на каком-либо конкретном наборе районов, почтовых индексов или улиц (где жалобы являются серьезными) для конкретного типа жалоб, которые вы указали в ответе на вопрос 1?
  3. Имеет ли тип жалобы, указанный вами в ответ на вопрос 1, очевидную связь с какой-либо конкретной характеристикой или характеристиками домов или зданий?
  4. Можно ли построить прогностическую модель для будущего предсказания возможности жалоб того типа, который вы определили в ответ на вопрос 1? 47IBM DS0720EN ПРОЕКТ CAPSTONE ПО НАУКЕ ДАННЫХ И МАШИННОМУ ОБУЧЕНИЮ

Ваша организация назначила вас в качестве ведущего специалиста по данным для предоставления ответов на эти вопросы. Вам нужно получить ответы на них в этом проекте Capstone, следуя стандартному подходу к науке о данных и машинному обучению.[1]

ПРИЛОЖЕНИЕ 2: ОТКРЫТЫЕ ЖАЛОБЫ

Что сразу бросается в глаза, так это один из способов расставить непосредственные приоритеты: расставлять приоритеты по темам в рамках открытых жалоб, а не рассматривать последние десять лет.

Отдельное исследование может определить, связано ли это с быстрым закрытием жалоб или с показателем невыполненных работ. Возможной областью для изучения будет среднее время закрытия.

Как видно из рисунка Распределение продолжительности открытых жалоб, число жалоб составляет несколько лет с момента их открытия.

Если мы посмотрим на открытые жалобы (см. рисунок «Открытые жалобы по типам»), то основными категориями будут «Общее строительство», «Сантехника» и «Малярная штукатурка».

Присвоение большего веса путем объединения дней, открытых для каждой категории, Общее строительство, Сантехника, Малярная штукатурка по-прежнему остаются главными категориями для активных жалоб.

Департамент может запустить проект по расследованию этих просроченных открытых жалоб, чтобы понять, существует ли проблема, и следует ли оставить жалобу активной или закрыть ее. Будущие исследователи могут использовать литературный обзор или интервью с экспертами в предметной области, чтобы присвоить стоимость или вес определенным категориям. Эксперты предметной области могут определить, что определенные типы жалоб являются открытыми как некритичные, поэтому одинаковое взвешивание может ввести в заблуждение.

Авторские права © 2021 Schwarzwald_AI