Групповой проект по науке о данных с открытым исходным кодом, предоставленный Hamoye, который будет выполняться стажерами (включая меня).

Вступление

По данным Всемирной организации здравоохранения, во всем мире около 1,2 миллиона человек ежегодно погибают в дорожно-транспортных происшествиях и до 50 миллионов получают травмы. Прогнозы показывают, что эти цифры увеличатся примерно на 65% в течение следующих 20 лет, если не будет новых обязательств по профилактике [1]. Растет озабоченность по поводу уровня смертности на дорогах, и государственные учреждения продолжают серьезно работать над снижением вероятности дорожно-транспортных происшествий.

Тем не менее, для интереса этого проекта подробные данные о безопасности дорожного движения в Великобритании содержат данные об уже произошедших авариях, поэтому мы решили проанализировать данные и использовать их в будущем, чтобы узнать, как можно сдерживать или управлять дорожно-транспортными происшествиями в Великобритании.

Данные для этого проекта были найдены на Kaggle. Он состоит из пяти наборов данных в папке, которая включает данные о несчастных случаях, сведения об автомобилях, участвовавших в авариях, данные транспортных средств и записи аварий.

Постановка задачи

Когда происходят несчастные случаи, степень серьезности различается. В крайнем случае это может быть фатальным, в то время как в самом минимальном случае это может привести к некоторым повреждениям. В любом случае всегда возникает вопрос, насколько серьезной была авария. Эта повышенная озабоченность изменила курс этого проекта на анализ данных и поиск закономерностей в записях, которые можно было бы использовать для прогнозирования серьезности дорожно-транспортного происшествия.

Исследование данных

Данные содержат более 80% городских дорожно-транспортных происшествий. Это можно объяснить очень высокой численностью участников дорожного движения в городских районах.

График показывает, что при возникновении аварии вероятность сильного удара по водителю выше.

Пик дорожно-транспортных происшествий в 2019 году пришелся на ноябрь, зимний сезон. Более темные и короткие дни в сочетании с повышенной вероятностью гололеда и снега повышают риск для всех участников дорожного движения. Кроме того, в ясные и солнечные зимние дни часто возникают сильные блики, которые могут ослеплять участников дорожного движения, едущих на солнце [2].

Сюжет показал, что классы тяжести несчастных случаев сильно различаются. Указывая на то, что было зарегистрировано больше случаев легких происшествий с 82,86% и серьезных и смертельных случаев с 15,90% и 1,24% соответственно. Это облегчило выбор характеристик за счет изучения различных факторов, относящихся к каждой категории серьезности аварии.

Предварительная обработка данных

После изучения данных следующим шагом была их предварительная обработка перед использованием для разработки прогнозной модели. Были выполнены следующие шаги предварительной обработки данных:

Очистка данных

После выполнения различного исследовательского анализа данных нерелевантные столбцы, включая функции с высоким процентом пропущенных значений, были удалены.

Разработка и преобразование функций

Разработка функций была выполнена для столбца даты путем преобразования его в формат даты и времени, чтобы выделить столбцы лет и месяцев отдельно, это поможет облегчить глубокое понимание изменений в происшествиях несчастных случаев на разных отметках времени, а также повысит точность предсказания модели относительно времени.

Очищенные наборы данных были объединены и стандартизированы с помощью масштабатора MinMax. Это поможет привести все функции к общему масштабу, тем самым контролируя компромиссы смещения модели.

Реализация модели

Были реализованы различные модели:

1. Классификатор случайных лесов

2. Классификатор Lightgbm

3. Классификатор Xgboost

4. Классификатор ExtraTrees.

Оценка результатов метрики

Метриками для оценки были: оценка точности, оценка отзыва, оценка точности и оценка F1.

Наблюдения:

После подбора различных моделей классификаторы Random Forest и ExtraTress показали лучшие F1_scores 0,8475 и 0,8467 соответственно.

Важность признака для классификатора случайного леса указана ниже.

Заключение

Модель достаточно надежна, чтобы предсказать серьезность происшествия. Этот подход можно использовать в качестве директивы для выработки стратегии предотвращения или уменьшения серьезных инцидентов.

Вы можете получить доступ к проекту на GitHub

Особая благодарность всем участникам этой работы, как в предыдущей, так и в моей нынешней команде (на момент написания этой статьи).

использованная литература

  1. Педен М., Скарфилд Р., Слит Д., Мохан Д., Хайдер А.А., Джараван Э. и др. Всемирный доклад о предотвращении дорожно-транспортного травматизма. Женева: Всемирная организация здравоохранения (ВОЗ). 2004. [цитировано 4 ноября 2019 г.]. Доступно по URL: https://www.who.int/violence_injury_prevention/publications/road_traffic/world_report/en/
  2. Insurethebox, 12 января 2017 г. Доступно по URL: https://www.insurethebox.com/wp-content/uploads/2017/01/ITB17.01-Winter-Driving-tips-final.pdf