Введение

Согласно данным WSDOT за 2017 год, в штате Вашингтон каждые 4 минуты происходит автомобильная авария, а каждые 20 часов в результате автокатастрофы погибает человек. Дорожно-транспортные происшествия часто приводят к травмам, инвалидности, смерти и материальному ущербу, а также к финансовым затратам как для общества, так и для отдельных лиц. Они также влияют на экономику, увеличивая время в пути, увеличивая время доставки продуктов и затрат, а также загрязнение окружающей среды из-за огромного количества автомобилей, ожидающих расчистки дороги или сильно замедляющихся.

На риск столкновений влияет ряд факторов, в том числе конструкция транспортного средства, скорость движения, конструкция дороги, дорожная среда, погодные условия, условия освещения, навыки вождения, ухудшение состояния вследствие употребления алкоголя или наркотиков, а также поведение, в частности отвлеченное вождение, превышение скорости, и уличные гонки.

Методы классификации машинного обучения могут помочь нам прогнозировать серьезность автомобильных аварий, используя данные об автомобильных авариях в Сиэтле.

Целевая аудитория

Эта модель может помочь пассажирам, профессиональным водителям или специалистам по планированию логистики уменьшить личное и/или деловое воздействие автомобильных аварий.

Правительство Сиэтла: в районах, подверженных авариям, могут быть предусмотрены меры вмешательства, такие как прерыватели скорости, дорожные знаки, создание новых полицейских контрольно-пропускных пунктов для проверки вождения в нетрезвом виде и т. д., которые могут помочь уменьшить количество аварий

Владельцы автомобилей. Владельцы, проживающие в районах, где припаркованные автомобили могут быть сбиты другими транспортными средствами, должны сосредоточиться на парковочных местах и ​​могут платить больше за страховку, чтобы уменьшить ущерб.

Медицинские и экстренные службы в Сиэтле. Прогнозируя тяжесть несчастных случаев, они могут предпринять необходимые действия и потенциально могут спасти жизни.

Данные

Данные об авариях (предоставленные сайтом seattle.gov: Ссылка) будут использоваться для прогнозирования серьезности аварии с учетом определенных характеристик (Метаданные). Данные относятся к 19463 авариям, произошедшим в городе Сиэтл с 2004 по 2020 год, и содержат 38 столбцов, описывающих подробности каждой аварии.

Целевая переменная: SEVERITYCODE со значениями 1 (повреждение имущества) и 2 (физическая травма).

Из приведенного выше рисунка мы можем сказать, что набор данных искажен, и нам нужно сбалансировать данные. Существуют различные методы балансировки искаженных данных, я использовал метод недостаточной выборки.

Анализ данных

превышение скорости

На некоторых дорогах происходит много аварий, как показано черными кружками, поэтому правительство может установить на этих дорогах ограничители скорости, чтобы уменьшить количество аварий из-за превышения скорости.

Употребление алкоголя

Полиция может ввести проверки транспортных средств, въезжающих в черные круги.

Наезд на припаркованные машины

Люди, живущие в местах с большим количеством аварий, могут быть более осторожными в отношении парковки и могут платить больше за страховку, чтобы не иметь никаких убытков.

Выбор функции

После разработки функций я выбрал 19 наиболее подходящих функций из 38 функций.

Мы собираемся построить модель, используя эти 19 признаков. Для этого мы должны сначала закодировать все функции типа объекта в тип int или float, и этот процесс называется кодированием функций.

Типы данных выбранных функций приведены ниже:

  • Номинальные категориальные переменные, такие как ADDRTYPE, WEATHER, ROAD COND, LIGHTCOND, COLLISIONTYPE, заменяются уникальными целыми числами для каждого значения категории.
  • Двоичные категориальные переменные, такие как INATTENTIONIND, UNDERINFL, SPEEDING, HITPARKEDCAR, PEDROWNOTGRNT, можно заменить на 1 и 0.

Из графика подсчета мы можем сказать наиболее распространенное значение каждой функции. Ниже мы рассмотрим каждый тип объектов с наибольшим количеством аварий.

Самый распространенный тип адреса — «Блок», на который приходится больше всего аварий. «Ясно» — самый распространенный тип погоды. Большинство аварий не связаны с превышением скорости. «Припаркованный автомобиль» — самый распространенный тип столкновения. «Сухая» — самый распространенный тип дорожного состояния. Большинство несчастных случаев происходит не из-за употребления алкоголя. Большинство аварий происходит на «среднем квартале» (не связанном с перекрестком) и «дневным светом».

На рисунке выше показан подсчет серьезности несчастных случаев каждый год. В 2005, 2006 годах произошло наибольшее количество несчастных случаев, а с 2015 года количество несчастных случаев снижается.

На приведенном выше рисунке показана тепловая карта, показывающая корреляцию между функциями, мы можем видеть, что некоторые переменные имеют высокую корреляцию, некоторые имеют умеренную корреляцию, а некоторые не имеют корреляции.

Разработка и оценка модели

После очистки и повторной выборки данных мы разделяем данные на обучающую (70%) и тестовую (30%) выборки. Тренировались с разными классификаторами, и результаты приведены в таблице ниже. Шаг оптимизации также был сделан.

Из приведенной выше таблицы мы можем сказать, что дерево решений и классификатор повышения XG хорошо работают с данными и имеют высокие оценки f1 по сравнению с другими классификаторами.

Важность функции

Из приведенного выше графика видно, что тип столкновения является наиболее важной характеристикой для прогнозирования серьезности аварии. Подсчет транспортных средств, подсчет пешеходов, подсчет людей и под воздействием наркотиков также являются важными функциями.

Вывод

Набор данных использовался для классификации серьезности аварий на основе определенных избранных признаков.

Исследовательский анализ данных показывает плотность аварий на основе географии на основе превышения скорости, вождения в состоянии алкогольного опьянения, невнимательности и столкновения с припаркованными автомобилями.

С точки зрения машинного обучения. Наиболее важными характеристиками были: тип столкновения, количество людей, количество транспортных средств и тип адреса. Алгоритм дерева решений показал лучшие результаты.

Функция: ИИ в беспилотных автомобилях может использовать такие модели для оценки риска аварий и изменения маршрута или просить водителя быть бдительным во время автопилота.

В этом сообщении в блоге подводятся итоги работы над рецензируемым проектом IBM Data Science Capstone.

Ссылка на код приведена ниже.

https://github.com/sudheer490/Capstone-Project-IBM-/blob/master/accidents_severity_prediction.ipynb