Управление рисками бедствий

Введение

Машинное обучение в управлении стихийными бедствиями имеет большой потенциал для использования прогностической аналитики для оповещения о предстоящих бедствиях.

Катастрофы неизбежны. Когда происходит такое событие, как шторм, наводнение или лавина, люди не могут ничего сделать, чтобы его избежать. Однако мы пришли к пониманию, что серьезность стихийного бедствия можно свести к минимуму с помощью адекватных методов управления стихийными бедствиями и только в том случае, если мы сможем обнаружить возникновение стихийного бедствия немного раньше.

Машинное обучение может изменить будущее управления стихийными бедствиями. Это удобный инструмент, который может помочь властям лучше работать в сложных ситуациях.

Цель этого проекта — упорядочить, структурировать, предварительно обработать, проанализировать и попытаться передать данные в модель машинного обучения, чтобы найти статистику и значимые числа, которые помогут нам предсказать, что и когда. и где возникновения предстоящих Катастроф.

Мы работали над этим проектом с правительством Валье-дель-Каука, особенно с Национальным отделом по управлению рисками бедствий, который участвует в совещании по науке о данных для секретаря Информационные и коммуникационные технологии.

Команда

Мы трое студентов Holberton School, которые работали над этим проектом.
- Амин Нейфер из Туниса.
- Пабло Андрес Урбано де ла Круз из Колумбии.
- Виктор Артеага из Колумбии

Данные

Данные представлены в виде 22 файлов Excel. Каждый из них представляет определенный год (1998 → 2019). Каждый файл имеет различную структуру данных (они не имеют одинаковых столбцов, некоторые из них имеют больше столбцов, чем другие).

Разделение рабочей нагрузки

Мы решили разделить нашу работу следующим образом.

Амин работала с файлами с 1998 по 2004 год.
Пабло работал с файлами с 2005 по 2011 год.
Виктор работал с файлами с 2012 по 2019 год.

Некоторые данные имели другую структуру, некоторые столбцы отсутствовали в некоторых файлах, а другие содержали дополнительную информацию, которой нет в других файлах. Итак, первое, что мы сделали, это нашли общие столбцы в каждом файле и создали единую структуру. Каждый из нас создал структуру для своих файлов-корреспондентов, и эти структуры были созданы. Что с той же техникой приводит нас к окончательной структуре, представленной ниже:

Когда у нас была окончательная структура для всех 22 файлов, мы начали процесс очистки с помощью SageMaker.

Очистка данных

Мы выполнили процесс очистки данных с помощью сервиса AWS под названием SageMaker. Это был первый раз, когда мы использовали эту технологию, поэтому нам пришлось учиться Это. Мы начали использовать некоторые преобразования, которые есть в SageMaker (добавление, удаление, редактирование… столбцов). Что было не так с SageMaker, так это то, что в нем было несколько ошибок. В некоторых случаях при возникновении ошибок SageMaker пропускает значения, вызывающие ошибку, а иногда просто удаляет значения или оставляет их с неправильным типом данных. Итак, нам пришлось объединить некоторые пользовательские преобразования, чтобы не потерять какое-либо значение и исправить все ошибки, с которыми мы столкнулись с данными. Для этих пользовательских преобразований мы использовали Python с Pandas и SQL (в SageMaker есть функция, которая позволяет пользователям использовать настраиваемые преобразования с кодом). Большинство ошибок, которые мы обнаружили при очистке данных, были опечатками, в некоторых значениях вместо букв были цифры, конечные и начальные пробелы в строках. Еще одним распространенным было то, что некоторые эквивалентные значения просто записывались по-разному. Поэтому нам пришлось найти все эти похожие данные, а затем исправить их, чтобы они были одинаковыми, например, «Валле-дель-Каука» и «Эль-Валле-дель-Каука». В этом примере мы решили просто удалить «Эль» вместо того, чтобы добавлять его к другому.

Первый этап

Мы начали с очистки данных, которые были у каждого из нас, а затем объединили их, чтобы создать 3 новых фрейма данных: 1998–2004, 2005–2011 и 2012–2019 годы. В ходе этого процесса мы обнаружили ошибку с данными за 2010 год. файл выглядел так, как будто он был поврежден, поэтому нам нужно было исправить этот файл непосредственно в Excel, прежде чем загружать его в SageMaker. > Мы обнаружили, что даты для этого файла неверны, поэтому мы поместили их как "2010-01-01" в качестве значения по умолчанию. После того, как мы исправили этот файл, мы загрузили его, а затем завершили создание 3 новых фреймов данных.

Второй этап

Когда мы получили 3 фрейма данных, нам просто нужно было соединить их, чтобы создать последний фрейм данных, содержащий информацию за все годы с 1998 по 2019 год. Это заняло некоторое время, потому что нам нужно было преобразовать некоторые типы данных и изменить имена некоторых столбцов и в некоторых случаях два столбца объединяются вместе.
На следующих рисунках представлен обзор преобразований, выполненных с входными файлами в SageMaker.

Третий этап

Как только мы получили наш последний кадр данных. Мы начали сталкиваться с некоторыми значениями (NaN) во фрейме данных и исследовали случаи, проверив, что события и отделы, представленные в данных, были правильно записаны. В этом процессе мы нашли странные данные, которые не имели смысла, эти данные не соответствовали ни одному отделу и даже какому-либо событию, поэтому мы просто удалили строки. Для городов это была тяжелая работа, потому что в данных было почти 1400 разных «городов», потому что некоторые из них были просто информацией, не имеющей смысла. Наконец, мы решили исправить только города из департамента Валье-дель-Каука.

Затем мы определили типы данных для фрейма данных, а затем создали новый столбец ОБЩАЯ СУММА, в котором указаны общие инвестиции в событие.

Наконец, мы создали 3 новых столбца для фрейма данных ГОД, МЕСЯЦ и ДЕНЬ, чтобы помочь нам, когда мы будем проводить анализ.

Четвертый этап

Когда данные были наконец готовы, мы сохранили их, а затем извлекли, чтобы использовать в Google Colab. В итоге мы закончили с 28 столбцами, которые, по нашему мнению, уместны для использования в модели машинного обучения. Вот часть описания финального фрейма данных после очистки.

Хранение данных

Для хранения данных мы использовали сервис S3 в AWS, который позволяет нам сохранять наши данные (CSV-файлы) для использования в SageMaker, а также последний созданный нами фрейм данных, содержащий все данные.

Анализ данных

Для этого раздела мы составили список вопросов, на которые собираемся ответить, используя анализ и построение графиков. Вот пример:
Один из вопросов:
- Какие Катастрофы случаются чаще всего?

Модель машинного обучения

Мы создали модель, модель SVM, чтобы делать прогнозы для этого проекта, но, к сожалению, компиляция занимает слишком много времени, мы не могли получить результат до сих пор, но мы надеемся, что когда он завершит компиляцию, мы найдем другие модели, и сравнить их с ним, и, надеюсь, найти подходящую модель для нашего проекта.

Выводы и будущие направления

В этом упражнении мы попытались показать использование таких технологий, как машинное обучение, для анализа информации о стихийных бедствиях. Используя эти технологии, правительства могут эффективно реагировать на эти события с помощью надлежащего управления человеческими ресурсами, деньгами и материалами.

Одним из самых больших обнаруженных недостатков является отсутствие количества и качества данных, в основном из-за того, что у государственных учреждений нет специализированных платформ для сбора соответствующей информации об этих событиях, и во многих случаях им приходится прибегать к смоделированным данным. А также модели прогнозирования по данной конкретной теме

Настоятельно рекомендуется продолжать разработку и использование таких технологий, как машинное обучение и интеллектуальный анализ данных для анализа информации при управлении стихийными бедствиями.

Управление рисками бедствий