Использование науки о данных для моделирования серьезности повреждений зданий после землетрясения

Использование науки о данных для решения проблем с идентификацией и решения бизнес-задач в современном мире невозможно переоценить. Из проблем, связанных с социальными, медицинскими и экологическими проблемами и т. Д., Наука о данных может помочь определить серьезность этих проблем и их воздействие и предоставить возможные решения для их решения.

Одним из многих вопросов, который в последнее время вызывает постоянный интерес, является вопрос о том, как исследовать повреждения зданий после землетрясения. В результате мы решили исследовать эту проблему, что интересно, я столкнулся с этой проблемой благодаря продолжающемуся конкурсу, организованному управляемыми данными, платформой, которая привносит передовые методы в области науки о данных и краудсорсинга для решения некоторых из самых больших социальных проблем в мире. и организации, занимающиеся ими.

Пример успеха

После сильных землетрясений проводится множество полевых исследований повреждений зданий, из-за огромного количества зданий и их разновидностей становится сложной задачей исследовать каждое здание, пострадавшее после землетрясения. Однако наличие уровня описания здания может помочь нам определить уровень ущерба, причиненного зданию.

О проекте

После землетрясения в Горкхе мощностью 7,8 МВт 25 апреля 2015 г. в Непале было проведено масштабное обследование домохозяйств с использованием мобильных технологий для оценки повреждений зданий в районах, пострадавших от землетрясения. Хотя основная цель этого обследования заключалась в том, чтобы определить получателей помощи, имеющих право на государственную помощь в реконструкции жилья, оно также позволило собрать другую полезную социально-экономическую информацию на уровне переписи.

Цель

Предложить новый метод описания тяжести повреждений здания, чтобы помочь следователям классифицировать повреждения здания без грубой ошибки.

Решение данного случая будет следовать подходу CRISP-DM, который включает:

  1. Понимание бизнеса
  2. Понимание данных
  3. Подготовка и анализ данных
  4. Моделирование/проверка данных
  5. Результат
  6. Развертывание

Понимание бизнеса

Основываясь на аспектах расположения и конструкции зданий, наша цель состоит в том, чтобы предсказать уровень ущерба, нанесенного зданиям в результате землетрясения Горкха 2015 года в Непале.

Понимание данных

Данные были собраны в ходе опросов Kathmandu Living Labs и Центрального статистического бюро, которое работает при Секретариате Национальной комиссии по планированию Непала.

Набор данных в основном состоит из информации о структуре зданий и их законной собственности. Каждая строка в наборе данных представляет собой конкретное здание в регионе, пострадавшем от землетрясения в Горхе.

В этом наборе данных 39 столбцов, где столбец building_id является уникальным и случайным идентификатором.

Подготовка и анализ данных

  • Подготовка данных

Для начала начнем с переменной with target; степень повреждения, которая представляла собой порядковую переменную, т.е. 1,2,3, где один (1) представляет низкий уровень повреждения, два (2) представляет средний уровень повреждения и (три) представляет почти полное разрушение здания, которое было поражено землетрясение.

Я использовал функцию карты, чтобы сопоставить каждый элемент с категориальным именем, чтобы сделать его пригодным для анализа.

Во-вторых, я проверяю, содержат ли наборы данных дубликаты и отсутствующие значения, они не содержат нулевого значения и дубликатов.

Исследовательский анализ данных

Этот этап включает в себя изучение данных для сбора информации, которая будет полезна для модели, чтобы извлечь уроки из данных, чтобы помочь улучшить производительность модели.

Одномерный анализ

Для начала давайте посмотрим на распределение целевой/зависимой переменной, степени повреждения,

Из вышеизложенного около 56,89% степени повреждения зданий имеют средний уровень серьезности, за которым следуют высокий с 33,47% и низкий 9,64%. Это означает, что большинство зданий в Непале имеют средний и высокий уровень повреждений после землетрясения, и лишь несколько зданий имеют низкий уровень повреждений.

Теперь мы пошли дальше, чтобы посмотреть на взаимосвязь между зависимой переменной и независимой переменной.

Начнем с проверки взаимосвязи между степенью повреждения и географическим регионом, в котором находится здание.

Исходя из вышеизложенного, мы начнем с рассмотрения зданий, существующих на географическом уровне один (1). Похоже, что большинство зданий в этом географическом регионе имеют низкий уровень повреждений, при этом около 75% зданий находятся на географическом уровне от 9 до 26, а также повреждения уровень здания, находящегося на втором географическом уровне, имеет низкую степень повреждения, аналогичную географическому уровню 1, при этом около 75% зданий находятся на уровне от 200 и выше. Наконец, здания на 3-м географическом уровне имеют одинаковую степень повреждения на всех географических уровнях.

Далее мы изучаем степень повреждения по количеству этажей в здании.

Из приведенного выше графика мы видим, что здания с 2 этажами имеют значительную степень повреждения, за которыми следуют здания с 3 этажами и этажом. Мы также заметили, что здание с 2 этажами имеет среднюю степень повреждения, за которой следует высокая степень повреждения, это также отражается на зданиях с 3 этажами и этажом.

Далее мы рассмотрим взаимосвязь между возрастом здания и степенью повреждения.

Важное наблюдение, которое следует отметить на приведенной выше диаграмме, показывает, что здания возрастом менее 50 лет имеют преобладающую степень повреждения, которая является средней, с заметным увеличением повреждений зданий в возрасте от 0 до 20 лет с устойчивым снижением с 25 лет. в возрасте до 45 лет, еще одно интересное наблюдение заключается в том, что здания возрастом 100 и 150 лет также имеют увеличение степени повреждения со средней степенью тяжести. Это означает, что возраст является основным фактором, определяющим уровень ущерба, который будет нанесен зданию.

Далее мы рассмотрим взаимосвязь между нормализованной площадью и высотой здания.

На приведенных выше диаграммах показано распределение степени повреждения по площади и высоте здания. Здесь мы видим, что большая часть класса урона имеет низкий уровень урона и высокий урон.

Далее мы рассмотрим взаимосвязь между степенью повреждения и другими категориальными переменными в наборах данных.

Важная информация

  1. Глядя на состояние поверхности земли здания, тип T оказывает значительное влияние на серьезность повреждения здания.
  2. Глядя на тип фундамента, мы можем заметить, что тип пола со значением R оказывает значительное влияние на тяжесть повреждений здания.
  3. Также существенное влияние на уровень повреждений здания оказывает тип цокольного этажа типа F.

Как мы видим, многие из полученных здесь результатов основаны на наблюдениях, и это показывает, что они окажут значительное влияние на построение нашей модели.

Моделирование данных

Этот этап включает в себя обучение модели машинного обучения со всеми перечисленными функциями, чтобы делать прогнозы для целевой переменной Damage_Grade. Мы выбрали степень повреждения в качестве целевого признака, учитывая цель проекта по прогнозированию уровня повреждения зданий, вызванного землетрясением Горкха 2015 года в Непале.

Чтобы измерить производительность наших алгоритмов, мы будем использовать оценку F1, которая уравновешивает точность и полноту классификатора. Традиционно оценка F1 используется для оценки производительности бинарного классификатора, но, поскольку у нас есть три возможных метки, мы будем использовать вариант, называемый микроусредненной оценкой F1.

Перед тем, как модель будет установлена ​​на данных, было выполнено необходимое преобразование признаков данных, которые включают следующие, хотя и не исчерпывающие;

  1. Нормализация функций
  2. Получение фиктивной переменной из категориальных признаков
  3. Отбрасывание функций и т. д.

Моделирование данных включало следующие этапы;

  • Разделение нашего набора данных на обучающий и тестовый набор, который будет использоваться для выбора нашей базовой модели.
  • Перекрестная проверка с использованием метода передискретизации синтетического меньшинства

Исходя из вышеизложенного, после опробования другого алгоритма вместе с методом передискретизации синтетического меньшинства и выполнения перекрестной проверки оказывается, что среднее значение модели одинаково, затем я случайным образом выбираю один из алгоритмов в качестве нашей базовой модели, которая является XGBoost

  • Выбор базовой модели

  • Наконец, мы создаем конвейер для простого рабочего процесса модели.

Развертывание

Развертывание решения для машинного обучения или обработки данных может варьироваться от веб-приложения, мобильного приложения, рассказывания историй в форме визуализации данных для заинтересованных сторон или технических отчетов для менеджера или руководителя, поэтому развертывание будет зависеть от того, как оно будет использоваться. .

Развертывание, необходимое для конкурса и этого проекта, осуществляется в форме повествования с использованием блога или статьи. Веб-приложение может быть рассмотрено в будущем, а также дальнейший анализ для обнаружения идей, которые будут полезны при обучении модели машинного обучения для улучшения текущей производительности модели при прогнозировании невидимых будущих данных.

Спасибо за время

Пожалуйста, не забудьте похлопать.

Чтобы узнать больше об этом анализе, см. ссылку на мой Github, доступную здесь

Свяжитесь со мной в Twitter

Свяжитесь со мной на linkedin