Классификатор сообщений о бедствиях

Стихийные бедствия затрагивают почти все части мира. В 2018 году Индонезия столкнулась с наибольшим количеством смертей в мире из-за землетрясений и цунами, произошедших в сентябре. В Соединенных Штатах в том году большинство жертв стихийных бедствий произошло из-за тропических циклонов, лесных пожаров, жары и засухи.

Разработчики, исследователи, государственные учреждения и предприятия изучают социальные сети как инструмент управления стихийными бедствиями. Район, пострадавший от стихийного бедствия, требует как предупредительных, так и дисциплинарных мер. Необходимость системы принятия решений во время ЧС и в режиме реального времени ставит проблемы классификации ЧС.

Можем ли мы изучить инструменты социальных сетей, чтобы лучше классифицировать экстренные сообщения во время кризиса, чтобы помочь людям принимать более обоснованные и правильные решения?

Описание набора данных

Этот набор данных, доступный на Kaggle, предоставленный Figure Eight, содержит 30 000 сообщений, извлеченных из событий землетрясений, наводнений, ураганов и новостных статей, охватывающих большое количество лет и сотни различных стихийных бедствий. Предоставляется оригинальное сообщение и его перевод на английский язык.

Данные были закодированы с использованием 36 различных категорий, связанных с реагированием на стихийные бедствия. Эти классы отмечены в заголовках столбцов уже в бинарном виде.

`Baseline` для каждых 36 меток классов:

Жесткая базовая линия из-за несбалансированных данных, поскольку отрицательный класс содержит более 90% данных в большинстве категорий.

3. Конвейер машинного обучения

Классификатор случайного леса. Обладал лучшей производительностью модели, создавая конвейер машинного обучения, используя обычный NLTK, токенизацию и лемматизацию, а также классификацию с несколькими выходами для вывода всех применимых классов.
Различие здесь заключалось в использовании стоп-слов и проверке орфографии. Так как во время кризиса опечатки встречаются чаще. Однако запуск вашей модели с проверкой орфографии занимает на 3 часа больше, чем стандартная токенизация (которая занимает 5 минут).
Классификатор с несколькими выходами. Состоит из подгонки нескольких классификаторов для каждой цели для создания данных с несколькими выходами.

4. Программные зависимости

В этом проекте используется Python 3.7.2 и следующие библиотеки:

5. Конвейер машинного обучения

Набор данных сильно несбалансирован, и именно поэтому точность высока, а полнота значительно низка. В несбалансированных данных мы должны сосредоточиться на F1 Score, а не на точности. Я сосредотачиваюсь на улавливании критических сообщений, при этом ложноотрицательные результаты более важны для оценки. Чтобы получить лучшую модель с этой точки зрения, отзыв будет указывать на пропущенные положительные сообщения о бедствии.

6. Оценка модели

Я выбрал оценку для микроусреднения, поскольку мои данные довольно несбалансированы, микроусреднение адекватно отразит этот дисбаланс классов и снизит общее среднее значение точности. И хотя мое дерево решений имеет лучший микросредний показатель F1, Random Forest работает лучше в некоторых других функциях. Я бы выбрал подходящую модель в соответствии с вашими предпочтениями категории. Набор данных сильно несбалансирован, и именно поэтому точность высока, а полнота значительно низка. В несбалансированных данных мы должны сосредоточиться на F1 Score (средневзвешенное значение точности и полноты), а не на точности. Я сосредотачиваюсь на улавливании критических сообщений, при этом ложноотрицательные результаты более важны для оценки. Мы не хотим пропустить важные продукты питания или воды, или помощь спасателей. Чтобы получить лучшую модель с этой точки зрения, нам будет полезнее вспомнить.

7. Заключение

Предоставление контекстуальной и своевременной информации во время кризиса помогает людям принимать более обоснованные и правильные решения.
Когда мы рассматриваем кризисные вопросы или другие крупномасштабные гуманитарные проблемы. Есть возможность сотрудничать в глобальном масштабе.
Платформы социальных сетей могут эффективно использоваться для управления цепочками поставок профессионалами, организациями и читателями в их деятельности.

8. Следующие шаги

Повторите попытку повторной выборки, недостаточной выборки и BalancedBaggingClassifier для нормализации данных.
Повторите попытку для гиперпараметров class_weight, указав меньшие веса для экземпляров большинства классов.
Агрегируйте твиттер-сообщения в реальном времени для получения информации о временном местоположении.
Агрегировать в Google Earth Engine, чтобы определить и обрисовать общедоступный спутниковый снимок, чтобы проиллюстрировать район, пострадавший от стихийного бедствия.
Объедините их вместе

9. Разработка приложений

Или в случае пожара:

Пожалуйста, проверьте мой GitHub для деталей.