На шумных улицах Лондона Лондонская пожарная команда (LFB) является маяком безопасности, неустанно работая над защитой жизни и имущества. Поскольку город продолжает расти, становится все более важным оптимизировать время реагирования экстренных служб. В этом сообщении блога мы отправляемся в захватывающее путешествие по миру интеллектуального анализа данных и машинного обучения, где мы изучаем возможности анализа экстренных вызовов и раскрываем ценные идеи, которые могут помочь повысить эффективность LFB.

Каждый год Лондонская пожарная команда (LFB) реагирует на тысячи событий, начиная от небольших пожаров и заканчивая серьезными бедствиями. Данные, полученные в результате этих инцидентов, можно анализировать, чтобы получить полезную информацию о тенденциях и закономерностях этих инцидентов. Мы проанализируем данные о событиях LFB с 2019 по 2023 год и построим прогностические модели, чтобы определить условную стоимость инцидентов в этом проекте. Мы также будем использовать подходы к исследовательскому анализу данных, чтобы выявить закономерности и тенденции в данных, таких как частота звонков с течением времени, распределение инцидентов по типу и местоположению, а также среднее время первого ответа по районам и типам инцидентов. Эти выводы помогут LFB улучшить свое реагирование на чрезвычайные ситуации и более эффективно управлять ресурсами. Следующие цели были обнаружены после анализа набора данных.

Сведения о наборе данных

  • Идентификация горячих точек: используйте алгоритмы кластеризации для объединения вхождений на основе их местоположения и обнаружения зон с высоким уровнем инцидентов. Это может помочь пожарной части более эффективно распределять ресурсы. Какие районы имеют самое быстрое среднее время отклика? Самый длинный? В какие районы поступает больше всего звонков?
  • Подготовка данных является важным этапом в процедуре анализа данных, поскольку она гарантирует точность, полноту и актуальность данных для анализа. Это влечет за собой преобразование необработанных данных в формат, который методы, инструменты и аналитики могут легко анализировать и интерпретировать.
    Удаление ненужных столбцов: столбцы «Восток m», «Север m». , «Округление на восток», «Округление на север», «ProperCase», «Почтовый индекс заполнен», «Широта» и «Долгота» были удалены из набора данных. Эти столбцы были сочтены избыточными, поскольку содержащаяся в них информация уже была
    уже передана через другие атрибуты и, следовательно, не представляла никакой дополнительной ценности для анализа.
    Преобразование типа данных. : Столбец DateOfCall был преобразован из типа объекта в тип даты. Это было сделано для облегчения анализа временных рядов и других вычислений, связанных с датами.
    Удаление нулевых значений: нулевые значения для столбцов «NumPumpsAttending», «Минуты первого ответа», «PumpHoursRoundUp». , IncidentGroup, PropertyCategory и HourOfCall были удалены
    из набора данных. Эти столбцы считались важными для прогностического анализа, поэтому было необходимо удалить все экземпляры с отсутствующими значениями.
    Кодирование категориальных переменных: категориальные переменные в наборе данных были закодированы с использованием однократного кодирования. кодирование. Это было сделано для преобразования категориальных переменных в числовую форму, которая требуется для большинства методов прогнозного моделирования.
    Нормализация числовых переменных: числовые переменные в наборе данных были нормализованы с использованием стандартного масштабирования. Это было сделано для того, чтобы все переменные находились в одном масштабе и имели одинаковую важность во время анализа.
    Разработка признаков: в случае набора данных о времени отклика создание признаков включало расчет времени. приняты для первого и второго ответа, чтобы прибыть в место инцидента. Чтобы рассчитать время первого отклика, столбец FirstPumpArriving AttendanceTime, который содержит время, необходимое для прибытия первого насоса, был разделен на 60, чтобы преобразовать время в минуты. Затем полученные значения были добавлены для создания нового столбца с именем Первое время отклика. Аналогичным образом столбец SecondPumpArriving AttendanceTime использовался для расчета второго времени отклика. Если второй ответ не был записан, значение для этого столбца оставалось пустым. Полученные значения также были добавлены для создания нового столбца с именем Второе время отклика.

Подготовка данных

Этот набор данных охватывает отчеты об инцидентах, полученные Лондонской пожарной командой (LFB) в 2018 году, собранные по ссылкам, как показано ниже.



Набор данных вызовов LFB содержит информацию об экстренных вызовах в 39 категориях и 426461 случае. Набор данных включает как категориальные, так и непрерывные признаки. Данные включают номер инцидента LFB, дату и время звонка в службу экстренной помощи, категорию инцидента, подробное описание инцидента,
место инцидента (включая почтовый индекс, район, район и координаты), посещение пожарных депо и насосов, а также продолжительность и стоимость инцидента.

Исследовательский анализ данных (EDA)

Линейная диаграмма временных рядов является ценным инструментом для анализа тенденций данных во времени. В этом сценарии была изучена тенденция количества вызовов с 2019 по 2023 год, как показано на рисунке 1. Он показывает, что количество вызовов, полученных пожарной службой, со временем колебалось. В данных
есть отчетливая аномалия, которая произошла в августе 2021 года. В этот день было более 1000 звонков, что является наибольшим количеством звонков, зарегистрированных в наборе данных. С другой стороны, в предыдущий день в январе 2019 года было зарегистрировано наименьшее количество звонков – 250. Стоит отметить, что самые высокие и самые низкие значения с точки зрения времени расположены справа
друг от друга.

Прогнозное моделирование

Эта закономерность показывает, что количество вызовов, обработанных пожарной службой, непостоянно и колеблется. Причина большого всплеска звонков в августе 2021 года неизвестна, но это может быть связано
с особым событием или сезонным сдвигом. Также возможно, что технология записи звонков была улучшена или изменена, что повлияло на количество записанных звонков. Это может пролить свет на вероятные причины
колебаний и помочь сформировать планы управления спросом на услуги экстренного реагирования.

На гистограмме показана тенденция объема вызовов по часам дня. Это показывает, что количество звонков возрастает примерно с 8000 в ранние утренние часы до более чем 20000 во второй половине дня, как показано на рисунке [2]. Это означает, что пожарная часть занята в течение дня, когда люди бодрствуют и активны. На рисунке также видно, что количество звонков ниже в ранние утренние часы, чего и следовало ожидать, учитывая, что большинство людей в это время спят. После 6 утра количество вызовов начинает расти и продолжает увеличиваться в течение дня, достигая кульминации во второй половине дня, прежде чем начать падать вечером.
Эти знания могут помочь пожарной службе более эффективно распределять свои ресурсы и персонал. Например, они могут захотеть иметь дополнительный персонал, доступный в часы пик, для обработки возросшего объема звонков. Эта информация также может быть использована для организации учебных занятий и других мероприятий в мирные ранние утренние часы.

Гистограмма отображает количество вызовов, полученных для различных типов событий, как показано на рисунке [3]. Данные показывают, что большинство вызовов были связаны с автоматическими пожарными тревогами, что неудивительно, учитывая, что эти тревоги могут быть активированы по разным причинам и не всегда связаны с пожаром. На втором месте по количеству запросов были специальные службы, которые часто связаны с неэкстренными обстоятельствами, такими как обыски животных, наводнения и другие несчастные случаи, не связанные с пожаром. Эти сведения
могут помочь пожарной службе определить вид и частоту происшествий, что может помочь в распределении ресурсов и планировании.

Чтобы изучить среднее время первого реагирования для происшествий специального типа, была построена ящичковая диаграмма, как показано на рисунке 4. Ящичная диаграмма показывает, что первое время реагирования на аварии с разливом и утечкой является самым продолжительным, со средним временем реагирования около 5 минут. Коробчатая диаграмма также показывает, что случаи разливов и утечек имеют больший диапазон, чем другие виды происшествий, что указывает на то, что некоторые из этих событий имеют значительно более длительное время реакции. С другой стороны, первое время отклика на удаление предметов у
отдельных лиц самое быстрое: среднее время отклика составляет менее 3 минут. Это означает, что эти предупреждения имеют приоритет и рассматриваются как можно скорее.

Чтобы изучить среднее время первого ответа по районам, были построены столбчатая диаграмма и диаграммы, как показано на рисунках 5 и 6. Гистограмма отображает среднее время первого ответа для каждого района, а диаграммы показывают распределение времени первого ответа для каждый район. Согласно гистограмме
, в лондонском Сити и Кингстоне-апон-Тейме самое короткое среднее начальное время отклика, а в Вестминстере — самое длинное. Это говорит о том, что службы экстренной помощи в лондонском Сити и
Кингстон-апон-Теме реагируют быстрее, чем в Вестминстере. На диаграммах более подробно показано распределение времени первого ответа для каждого района. Ящичные диаграммы отображают диапазон данных (усы), верхний и нижний квартили и медиану (средняя линия прямоугольника). Коробчатые диаграммы Кингстона-на-Теме имеют меньший диапазон, чем Вестминстер, у которого диапазон больше. Это говорит о том, что время отклика Кингстона-на-Теме более стабильно, чем у Вестминстера.

Среднеквадратическая ошибка (MSE) — это метрика, которая вычисляет среднеквадратичную разницу между фактическими и прогнозируемыми значениями, при этом более низкие значения указывают на лучшую производительность модели. Показатель R2 количественно определяет долю дисперсии целевой переменной, которая может быть объяснена входными признаками,
с большими значениями, указывающими на лучшую производительность модели. Судя по данным, все три модели работают хорошо, с низкими значениями MSE и хорошими показателями R2. Модель линейной регрессии имеет самую низкую MSE и максимальное R2, что указывает на то, что она может быть наиболее эффективной моделью для этой задачи. Однако,
поскольку модели дерева решений и случайного леса имеют различные сильные и слабые стороны, они могут работать лучше в разных контекстах.

Заключение

Наконец, цель этого исследования состояла в том, чтобы проанализировать и смоделировать данные о вызовах службы экстренной помощи лондонской пожарной бригады. Подготовка данных, анализ данных и разработка признаков были первыми шагами проекта. Затем для сбора информации и прогнозирования данных были построены как описательные, так и прогностические модели
.
Чтобы проанализировать данные и получить представление о тенденциях и закономерностях экстренных вызовов, использовались описательные методы, такие как K- средства кластеризации и исследовательского анализа данных. Данные показали, что количество звонков варьировалось в течение дня и недели, при этом наибольшее количество звонков было в будние дни и во второй половине дня. Кроме того, наиболее распространенным типом вызова была автоматическая пожарная тревога (AFA), в то время как среднее время первого реагирования на аварии с разливом и утечкой было самым продолжительным.
Кроме того, прогностические модели, такие как линейная регрессия, дерево решений и случайная Для прогнозирования данных использовались леса. Случайный лес получил наименьшее значение MSE и наибольшее значение R-квадрата, что указывает на то, что это лучшая модель для оценки условной стоимости экстренных вызовов. В целом
этот проект позволил получить полезную информацию и прогнозы в отношении данных о вызовах службы экстренной помощи лондонской пожарной бригады, которые можно использовать для повышения эффективности и действенности служб экстренного реагирования.

Конец примечаний

Доступность кода. Мы верим в силу совместной работы и обмена знаниями, поэтому сделали код для нашего анализа легко доступным на GitHub. Все необходимые скрипты, этапы предварительной обработки данных, исследовательский анализ и модели машинного обучения вы можете найти в нашем репозитории.

Создайте модель, которая прогнозирует стоимость реагирования на событие на основе таких факторов, как количество задействованных насосов и время, затраченное на инцидент, с использованием методов регрессии. Это может помочь пожарной службе более эффективно распределять ресурсы и контролировать расходы.

«GitHub — befarina/London-Fire-Bridge: всесторонний анализ экстренных вызовов и ответов…
всесторонний анализ экстренных вызовов и времени реагирования лондонской пожарной команды с использованием мощь интеллектуального анализа данных…github.com»



Мы рекомендуем вам делиться своими отзывами, предложениями и любыми улучшениями, которые вы вносите в код. Сотрудничая и учась на опыте друг друга, мы можем коллективно улучшать системы реагирования на чрезвычайные ситуации и помогать спасать жизни.



Итак, давайте отправимся в это путешествие вместе! Посетите наш репозиторий GitHub и присоединяйтесь к нам, чтобы раскрыть всю мощь интеллектуального анализа данных и машинного обучения в сфере экстренных вызовов и анализа времени отклика. Вместе мы можем изменить ситуацию к лучшему, создав более безопасное и эффективное будущее для всех.

Анализ вызовов службы экстренной помощи и времени реагирования лондонской пожарной команды: использование силы данных…