Управление рисками бедствий

Введение

Машинное обучение в управлении стихийными бедствиями имеет большой потенциал для использования прогностической аналитики для оповещения о предстоящих бедствиях.

Катастрофы неизбежны. Когда происходит такое событие, как шторм, наводнение или лавина, люди не могут ничего сделать, чтобы его избежать. Однако мы пришли к пониманию, что серьезность стихийного бедствия можно свести к минимуму с помощью адекватных методов управления стихийными бедствиями и только в том случае, если мы сможем обнаружить возникновение стихийного бедствия немного раньше.

Машинное обучение может изменить будущее управления стихийными бедствиями. Это удобный инструмент, который может помочь властям лучше работать в сложных ситуациях.

Цель этого проекта — упорядочить, структурировать, предварительно обработать, проанализировать и попытаться передать данные в модель машинного обучения, чтобы найти статистику и значимые числа, которые помогут нам предсказать, что и когда. и где возникновения предстоящих Катастроф.

Мы работали над этим проектом с правительством Валье-дель-Каука, особенно с Национальным отделом по управлению рисками бедствий, который участвует в совещании по науке о данных для секретаря Информационные и коммуникационные технологии.

Команда

Мы трое студентов Holberton School, которые работали над этим проектом.
- Амин Нейфер из Туниса.
- Пабло Андрес Урбано де ла Круз из Колумбии.
- Виктор Артеага из Колумбии

Данные

Данные представлены в виде 22 файлов Excel. Каждый из них представляет определенный год (1998 → 2019). Каждый файл имеет различную структуру данных (они не имеют одинаковых столбцов, некоторые из них имеют больше столбцов, чем другие).

Разделение рабочей нагрузки

Мы решили разделить нашу работу следующим образом.

  • Амин работала с файлами с 1998 по 2004 год.
  • Пабло работал с файлами с 2005 по 2011 год.
  • Виктор работал с файлами с 2012 по 2019 год.

Некоторые данные имели другую структуру, некоторые столбцы отсутствовали в некоторых файлах, а другие содержали дополнительную информацию, которой нет в других файлах. Итак, первое, что мы сделали, это нашли общие столбцы в каждом файле и создали единую структуру. Каждый из нас создал структуру для своих файлов-корреспондентов, и эти структуры были созданы. Что с той же техникой приводит нас к окончательной структуре, представленной ниже:

Когда у нас была окончательная структура для всех 22 файлов, мы начали процесс очистки с помощью SageMaker.

Очистка данных

Мы выполнили процесс очистки данных с помощью сервиса AWS под названием SageMaker. Это был первый раз, когда мы использовали эту технологию, поэтому нам пришлось учиться Это. Мы начали использовать некоторые преобразования, которые есть в SageMaker (добавление, удаление, редактирование… столбцов). Что было не так с SageMaker, так это то, что в нем было несколько ошибок. В некоторых случаях при возникновении ошибок SageMaker пропускает значения, вызывающие ошибку, а иногда просто удаляет значения или оставляет их с неправильным типом данных. Итак, нам пришлось объединить некоторые пользовательские преобразования, чтобы не потерять какое-либо значение и исправить все ошибки, с которыми мы столкнулись с данными. Для этих пользовательских преобразований мы использовали Python с Pandas и SQL (в SageMaker есть функция, которая позволяет пользователям использовать настраиваемые преобразования с кодом). Большинство ошибок, которые мы обнаружили при очистке данных, были опечатками, в некоторых значениях вместо букв были цифры, конечные и начальные пробелы в строках. Еще одним распространенным было то, что некоторые эквивалентные значения просто записывались по-разному. Поэтому нам пришлось найти все эти похожие данные, а затем исправить их, чтобы они были одинаковыми, например, «Валле-дель-Каука» и «Эль-Валле-дель-Каука». В этом примере мы решили просто удалить «Эль» вместо того, чтобы добавлять его к другому.

Первый этап

Мы начали с очистки данных, которые были у каждого из нас, а затем объединили их, чтобы создать 3 новых фрейма данных: 1998–2004, 2005–2011 и 2012–2019 годы. В ходе этого процесса мы обнаружили ошибку с данными за 2010 год. файл выглядел так, как будто он был поврежден, поэтому нам нужно было исправить этот файл непосредственно в Excel, прежде чем загружать его в SageMaker. > Мы обнаружили, что даты для этого файла неверны, поэтому мы поместили их как "2010-01-01" в качестве значения по умолчанию. После того, как мы исправили этот файл, мы загрузили его, а затем завершили создание 3 новых фреймов данных.

Второй этап

Когда мы получили 3 фрейма данных, нам просто нужно было соединить их, чтобы создать последний фрейм данных, содержащий информацию за все годы с 1998 по 2019 год. Это заняло некоторое время, потому что нам нужно было преобразовать некоторые типы данных и изменить имена некоторых столбцов и в некоторых случаях два столбца объединяются вместе.
На следующих рисунках представлен обзор преобразований, выполненных с входными файлами в SageMaker.

Третий этап

Как только мы получили наш последний кадр данных. Мы начали сталкиваться с некоторыми значениями (NaN) во фрейме данных и исследовали случаи, проверив, что события и отделы, представленные в данных, были правильно записаны. В этом процессе мы нашли странные данные, которые не имели смысла, эти данные не соответствовали ни одному отделу и даже какому-либо событию, поэтому мы просто удалили строки. Для городов это была тяжелая работа, потому что в данных было почти 1400 разных «городов», потому что некоторые из них были просто информацией, не имеющей смысла. Наконец, мы решили исправить только города из департамента Валье-дель-Каука.

Затем мы определили типы данных для фрейма данных, а затем создали новый столбец ОБЩАЯ СУММА, в котором указаны общие инвестиции в событие.

Наконец, мы создали 3 новых столбца для фрейма данных ГОД, МЕСЯЦ и ДЕНЬ, чтобы помочь нам, когда мы будем проводить анализ.

Четвертый этап

Когда данные были наконец готовы, мы сохранили их, а затем извлекли, чтобы использовать в Google Colab. В итоге мы закончили с 28 столбцами, которые, по нашему мнению, уместны для использования в модели машинного обучения. Вот часть описания финального фрейма данных после очистки.

Хранение данных

Для хранения данных мы использовали сервис S3 в AWS, который позволяет нам сохранять наши данные (CSV-файлы) для использования в SageMaker, а также последний созданный нами фрейм данных, содержащий все данные.

Анализ данных

Для этого раздела мы составили список вопросов, на которые собираемся ответить, используя анализ и построение графиков. Вот пример:
Один из вопросов:
- Какие Катастрофы случаются чаще всего?

Модель машинного обучения

Мы создали модель, модель SVM, чтобы делать прогнозы для этого проекта, но, к сожалению, компиляция занимает слишком много времени, мы не могли получить результат до сих пор, но мы надеемся, что когда он завершит компиляцию, мы найдем другие модели, и сравнить их с ним, и, надеюсь, найти подходящую модель для нашего проекта.

Выводы и будущие направления

В этом упражнении мы попытались показать использование таких технологий, как машинное обучение, для анализа информации о стихийных бедствиях. Используя эти технологии, правительства могут эффективно реагировать на эти события с помощью надлежащего управления человеческими ресурсами, деньгами и материалами.

Одним из самых больших обнаруженных недостатков является отсутствие количества и качества данных, в основном из-за того, что у государственных учреждений нет специализированных платформ для сбора соответствующей информации об этих событиях, и во многих случаях им приходится прибегать к смоделированным данным. А также модели прогнозирования по данной конкретной теме

Настоятельно рекомендуется продолжать разработку и использование таких технологий, как машинное обучение и интеллектуальный анализ данных для анализа информации при управлении стихийными бедствиями.