Эта статья основана на ключевом проекте программы IBM Data Science Professional Certificate. Аналитика данных и прогнозное моделирование применяются для изучения набора данных об автомобильных авариях в Сиэтле. Выявлены некоторые закономерности в отношении несчастных случаев. Из протестированных моделей модель дерева решений может предсказать общую статистику характеристик аварии в наборе тестовых данных, хотя по-прежнему сложно точно предсказать все характеристики, связанные с отдельной аварией. В этой статье я расскажу о некоторых ключевых результатах этого проекта.

1. Введение

1.1. Общие сведения

Автомобильные аварии — обычное дело в Соединенных Штатах. Подсчитано, что в США ежегодно в результате автомобильных аварий погибает 37 000 человек, а 2,35 млн получают травмы или становятся инвалидами [1]. Финансовые затраты, связанные с автомобильными авариями, также огромны. Общая сумма в США оценивается в 230,6 млрд долларов в год в последние годы [1]. Средняя стоимость одного несчастного случая составляет 1,4 миллиона долларов США при несчастном случае со смертельным исходом, 78 900 долларов США при несмертельной инвалидизирующей травме и 8 900 долларов США при травме, не приводящей к инвалидности, или несчастном случае с повреждением имущества [2].

Причины автомобильных аварий могут быть связаны с несколькими факторами, такими как состояние дороги, погодные условия и человеческие ошибки (например, превышение скорости) и т. д. Знание того, как эти факторы влияют на автомобильные аварии, является ключом к прогнозированию и предотвращению потенциальных аварий в будущем.

1.2. Описание проблемы

В этом исследовании был проанализирован набор данных об автомобильных авариях, чтобы изучить взаимосвязь различных характеристик автомобильных аварий. Прогностические модели были построены для прогнозирования особенностей аварии на основе некоторых заданных условий.

2. Данные

Набор данных, используемый в настоящем исследовании, предоставлен через программу IBM Applied Data Science Capstone [3]. Информация метаданных указывает на то, что исходным источником набора данных является ArcGIS Hub. Набор данных содержит информацию об автомобильных авариях в Сиэтле с 2004 по 2020 год. (Примечание: включены только частичные данные за 2020 год.) Необработанный набор данных содержит 194 673 записи об авариях с 38 функциями (столбцами). Данные были очищены и предварительно обработаны путем удаления некоторых повторяющихся записей и значений Nan, преобразования информации о дате/времени в день недели и час дня. Очищенный набор данных содержит 189 542 строки. Некоторые из функций, которые не имеют отношения к делу, отбрасываются. Описание характеристик, проанализированных в настоящем исследовании, приведено в таблице 1.

3. Исследовательский анализ данных

3.1. Серьезность несчастных случаев

Тяжесть аварий характеризуется функцией SEVERITYCODE в текущем наборе данных. Различают две степени тяжести: 1 — материальный ущерб, на долю которого приходится более 2/3 несчастных случаев, и 2 — травмы. Мы наблюдаем, что общее количество несчастных случаев с годами уменьшается, и снижение числа несчастных случаев, связанных с повреждением имущества, по-видимому, играет важную роль в развитии этой тенденции, как показано на рис. 1.

Другая тенденция заключается в том, что значительное количество несчастных случаев, включая как материальный ущерб, так и травмы, происходит в течение первого часа после полуночи, как показано на рис.2. Помимо этого временного интервала, второй период времени с относительно большой концентрацией несчастных случаев приходится на вечерний час пик.

3.2. Типы столкновений

Три наиболее распространенных типа столкновений в авариях: «автомобиль на стоянке», «угол» и «столкновение сзади». Их соответствующие числа появления изменяются в течение дня, как показано на рис.3. С 22:00 до полуночи столкновения «припаркованных автомобилей» происходят значительно чаще, чем другие виды столкновений; однако в поздний час пик около 16:00–17:00 тип столкновения «сзади» становится основным.

Затем типы столкновений анализируются в зависимости от различных погодных условий. Общая корреляция между погодой и типом столкновения слабая, как показано на рис.4. Процент столкновений «Велосипед» среди других столкновений снижается при наличии суровых погодных условий, что является ожидаемым результатом из-за меньшего количества велосипедистов на дороге. Один интересный вывод заключается в том, что процент наиболее опасных типов столкновений «Лобовое столкновение» также значительно снижается по сравнению с другими столкновениями в некоторых экстремальных погодных условиях, таких как «туман/смог/дым», «мокрый снег/зал/мороз». Дождь», «Порывы песка/грязи», «Сильный боковой ветер».

Тип столкновения, по-видимому, также в некоторой степени повлиял на состояние дороги, как показано на рис. 5. Как правило, количество столкновений с припаркованными автомобилями сравнимо или превышает количество аварий с наездом сзади, но когда на дороге стоит масло или вода, количество наездов с наездом сзади намного превышает количество столкновений с припаркованными автомобилями. Кроме того, относительное количество столкновений при повороте направо по сравнению с другими типами столкновений значительно снижается при следующих дорожных условиях: «Лед», «Песок/Грязь/Грязь», «Стоячая вода» и «Масло».

3.3. Количество людей, транспортных средств, пешеходов и велосипедов

Анализируются атрибуты аварии по количеству людей, транспортных средств, пешеходов и велосипедистов, показанные на рис. 6 и 7. В подавляющем большинстве аварий участвуют от 2 до 4 человек, 2 транспортных средства, 0 пешеходов и 0 велосипедистов. Интересным открытием является то, что в авариях с участием более 40 человек участвуют только 2 автомобиля. Другой вывод заключается в том, что в большинстве велосипедных аварий участвует только одно транспортное средство.

4. Прогнозное моделирование

Было построено несколько прогностических моделей. Используется библиотека python Sklearn. В качестве независимых переменных при прогнозном моделировании выбираются следующие признаки: «час», «день недели», «ПОГОДА», «ДОРОГА» (состояние дороги), «LIGHTCOND» (условие освещения), «UNDERINFL» (под влиянием). Три метода классификации, дерево решений, логистическая регрессия и k-ближайший сосед применяются для построения моделей для прогнозирования следующих характеристик: «КОД СЕРЬЕЗНОСТИ», «ТИП Столкновения», «ЧИСЛО ЛИЦ», «СЧЕТЧИК ТРАНСПОРТНЫХ СРЕДСТВ» (количество транспортных средств), «СЧЕТЧИК ТРАНСПОРТНЫХ СРЕДСТВ». (счетчик пешеходов) и «PEDCYLCOUNT» (количество велосипедов). Также была предпринята попытка с помощью полиномиальных регрессий от 2-го порядка до 20-го порядка предсказать место («X» и «Y») аварии, но модели оказались неточными.

Для обучения прогностических моделей набор данных был дополнительно обработан, чтобы избавиться от любых значений Nan. Ярлыки «Другое» и «Неизвестно» в некоторых функциях были объединены. Одно горячее кодирование было применено к функциям «ПОГОДА», «ДОРОГА» и «LIGHTCOND». Набор данных был разделен на набор для тестирования и набор для обучения с размером набора для тестирования 0,15 (в процентах). Стандартный скалярный метод применялся для нормализации данных.

4.1. Дерево решений

Из трех протестированных методов классификации наиболее надежным оказался метод дерева решений. Несмотря на то, что прогнозирование некоторых особенностей отдельной аварии по-прежнему остается очень трудным, метод дерева решений в целом дает хорошие статистические результаты с точки зрения гистограммы прогнозируемых характеристик. Были протестированы выбранные глубины дерева от 10 до 40, и для модели была выбрана глубина 35. На рисунках 8–13 показаны гистограммы зависимых признаков, основанные на данных из тестовой выборки, построенные против гистограмм этих признаков, рассчитанных с использованием модели дерева решений. Эти двое обычно хорошо сочетаются.

Далее мы рассмотрим метрические оценки модели дерева решений. Хотя точность модели на тренировочном наборе хорошая, а показатель точности, оценки Жаккара и F1 превышают 0,959 для всех прогнозируемых функций, производительность модели на тестовом наборе низкая при прогнозировании следующих функций: SEVERITYCODE, PERSONCOUNT. , VEHCOUNT и COLLISIONTYPE. Это указывает на то, что режим не может точно предсказать все особенности, связанные с отдельной аварией. Ниже мы приводим оценку точности, оценки Жаккара и F1 предсказанных результатов дерева решений на тестовом наборе:

4.2. Логистическая регрессия и k-ближайший сосед

Набор данных используется для обучения модели логистической регрессии. Производительность логистической модели ниже, чем у модели дерева решений. Даже на обучающем наборе оценки точности модели логистической регрессии для некоторых функций намного ниже 0,959, что является показателем, который может быть легко достигнут с помощью модели дерева решений при применении к обучающему набору. Например, на обучающем наборе показатель точности модели логистической регрессии составляет всего 0,285 для «COLLISIONTYPE» и 0,586 для «PERSONCOUNT». Модель логистической регрессии также плохо работала с точки зрения прогнозирования общей статистики количества признаков в тестовом наборе.

Метод k-ближайших соседей применялся для прогнозирования «КОД СЕРЬЕЗНОСТИ» (тяжести аварии). Сначала проверяются различные значения k соседей до 10; оценка точности в зависимости от k показана на рис.14. Затем испытание значений k расширяется с 10 до 30, и вычисляются оценка точности, оценка Жаккара и оценка F1. Результаты показаны на рис. 15. Модель k-ближайших соседей также не смогла точно предсказать общую статистику подсчета признаков.

5. Выводы

При предварительном анализе было выявлено несколько тенденций несчастных случаев. Например, большое количество несчастных случаев происходит в первый час после полуночи; некоторые типы столкновений, такие как «припаркованный автомобиль», «угол» и «столкновение сзади», по-видимому, преобладают над другими типами, а на некоторые столкновения (например, «столкновение сзади») влияет время суток, в то время как на некоторых также влияют погодные или дорожные условия; в подавляющем большинстве аварий участвуют менее 4 человек, 2 транспортных средства, 0 пешеходов и 0 велосипедистов.

Предсказать все особенности, связанные с отдельной аварией, как правило, сложно. Однако прогнозирование статистического результата, такого как гистограмма распределения признаков аварии в наборе данных, вполне возможно с помощью модели дерева решений.

Мои блокноты Python можно найти здесь и здесь.

Справочник

[1] Шубханкар Рават, Анализ данных об авариях в США, Medium.com, 21 февраля 2020 г. https://towardsdatascience.com/usa-accidents-data-analysis-d130843cde02

[2] Какова средняя стоимость автомобильной аварии, 26 августа 2020 г., «https://www.theintelligentdriver.com/2020/08/26/what-is-the-average-cost-of- автокатастрофа/"

[3] Данные о столкновениях в Сиэтле, IBM Applied Data Science Capstone на Coursera, https://s3.us.cloud-object-storage.appdomain.cloud/cf-courses-data/CognitiveClass /DP0701EN/версия-2/Data-Collisions.csv