Анализ и группировка местоположений для разработки оптимальных стратегий смягчения последствий с учетом местоположения
Примечание редакции: Towards Data Science - это издание Medium, в основном основанное на изучении науки о данных и машинного обучения. Мы не являемся специалистами в области здравоохранения или эпидемиологами, и мнения, изложенные в этой статье, не следует интерпретировать как профессиональные советы. Чтобы узнать больше о пандемии коронавируса, нажмите здесь.
1. Введение
1.1 Предпосылки
Covid-19 - это инфекционное заболевание, которое вызвало хаос в современном мире, нарушив повседневную жизнь каждого гражданского населения на Земле. Вирус, который в первую очередь поражает легкие, заразил 4543390 человек во всем мире, и 303 711 человек погибли из-за него (по состоянию на 15 мая 2020 года). Пандемия вынудила мировых лидеров принять строгие меры, такие как общенациональные блокировки, чтобы ограничить распространение вируса. Но блокировки не позволяют гражданским лицам работать и зарабатывать себе на жизнь, и их последствия беспокоят не только бедных, но и все слои общества, даже сами правительства. В такой ситуации, когда экономика падает, а страны могут приближаться к рецессии, люди могут быть вынуждены уйти, работать и жить вместе с вирусом. Это создает огромный риск для таких стран, как моя, Индия, с огромной плотностью населения.
1.2 Проблема
Чтобы предвидеть последствия снятия блокировки, мое исследование и этот блокнот помогут людям понять, в каких районах может наблюдаться всплеск случаев заболевания Covid-19. Я буду использовать данные о плотности населения и данные о местоположении популярных мест (например, популярных рынков), чтобы оценить взаимодействие, происходящее в конкретном месте. Окрестности будут сгруппированы в группы, чтобы можно было разработать общие и эффективные стратегии для работы с похожими местами. Я сосредоточусь на предсказаниях в основном в моем городе (Дели, столица Индии).
1.3 Проценты
Благодаря этому, я надеюсь, читатели смогут лучше понять потенциально опасные области, и власти могут принять меры по заблаговременному введению ограничений в такие области, чтобы уменьшить распространение вируса и, следовательно, страдания для жизни гражданского населения.
Я надеюсь и молюсь, чтобы тот, кто это читал, был в безопасности.
2. Данные
Чтобы решить указанную выше проблему, я использовал следующие данные:
Окрестности Дели (и основы их сегментации)
В Дели 9 районов, и они объединены в один из этих районов.
Ссылка - https://en.wikipedia.org/wiki/Neighbourhoods_of_Delhi
Обратите внимание, что эти данные получены по данным переписи населения 2011 года, согласно которой округов было 9, а не 11 округов в соответствии с текущей ситуацией. Поэтому я буду добавлять места в ЮГО-ВОСТОЧНОМ ДЕЛИ под ЮЖНЫМ ДЕЛИ и места в ШАХДАРЕ под ВОСТОЧНЫМ ДЕЛИ.
Эти данные будут использоваться для определения окрестностей, когда я буду наносить результаты на карту. Я воспользовался функцией «поиск» в Картах Google, чтобы выяснить приблизительные координаты каждого района и создал свой собственный набор данных.
Данные о местоположении популярных заведений - предоставлены Foursquare API
Foursquare API предоставляет данные о частоте появления различных заведений в определенном месте. Я буду использовать данные о местоположении, чтобы идентифицировать кластеры, в которых присутствуют объекты с высокой посещаемостью (например, рынки). Они будут обозначены как районы с горячими точками.
Следует отметить, что Foursquare API не содержит подробных сведений о местах проведения мероприятий в Дели, поэтому это лишь приблизительная картина реального мира. Но мы можем с уверенностью сказать, что это хорошее приближение и удовлетворит наши потребности.
Плотность населения различных районов по данным переписи населения 2011 г.
Данные о плотности населения будут использоваться для обозначения районов с потенциально высоким риском передачи инфекции в сообществах из-за высокой близости к условиям жизни.
Ссылка - https://www.census2011.co.in/census/state/districtlist/delhi.html
Данные о границах района
Я создал собственный набор данных с координатами многоугольника каждого района Дели. Я использовал два веб-сайта - http://nominatim.openstreetmap.org/ и http://polygons.openstreetmap.fr/index.py, чтобы сначала извлечь местоположение места на карте, а затем извлечь его координаты соответственно.
3. Методология
Чтобы спрогнозировать зоны распространения COVID в Дели, мы должны выполнить следующие шаги:
- Найдите популярные категории заведений в каждом районе
- Сформируйте кластеры кварталов в соответствии с преобладающими категориями мест проведения с помощью KMeans Clustering.
- Наложите слой картографической карты плотности населения в каждом районе, чтобы правильно спрогнозировать серьезность возможной ситуации.
Изначально я начал с визуализации окрестностей и мест проведения мероприятий в каждом районе.
Сгруппировав объекты по районам, мы видим, что был возвращен только 161 квартал. Это означает, что из 177 районов в 16 не было результатов.
Теперь я создал таблицу, содержащую 2 самые популярные категории мест в каждом районе.
Согласно найденным наиболее популярным местам, я использовал кластеризацию KMeans для группировки похожих районов. Я использовал сравнение показателей силуэта, чтобы найти оптимальное значение K (то есть количество кластеров).
Оптимальное значение K оказалось равным 6, после чего окрестности были сгруппированы в 6 кластеров с помощью KMeans Clustering. Затем результат был объединен в единый фрейм данных.
4. Результат
Создав карту Choropleth с использованием данных о плотности населения по районам, я пришел к этому.
После этого я добавил кластеры окрестностей на эту карту, чтобы мы могли знать кластеры соседства и степень беспокойства, требуемую для них, в соответствии с атрибутом кластеризации и плотностью населения в этом месте.
Легенда:
- Наибольшее беспокойство - КРАСНЫЙ, ЖЕЛТЫЙ
- Умеренно касательно - ФИОЛЕТОВЫЙ, СИНИЙ
- Наименее опасный - БИРЮЗОВЫЙ
- Не касается - ЗЕЛЕНЫЙ
Атрибуты кластеризации соседства:
- Районы с преобладанием "ресторанов быстрого питания" и других социально активных мест. (Больше всего беспокоит) - желтый маркер
- Микрорайоны с жилыми комплексами и зонами повседневной активности населения. (Умеренно опасно) - синий маркер
- Районы со множеством заведений, связанных с повседневной жизнью. (Умеренно опасно) - фиолетовый маркер
- Районы с преимущественно "индийскими ресторанами". (Больше всего беспокоит) - Красный маркер
- Кварталы только с объектами первой необходимости. (В наименьшей степени) - бирюзовый маркер
- Районы с очень небольшим количеством заведений. (Не касается) - зеленый маркер
5. Обсуждение
С помощью окончательной карты мы можем увидеть, какие все районы уязвимы для распространения вируса, а также о том, о каких районах в каждом районе нужно позаботиться.
Места с красными и желтыми маркерами (наиболее опасные зоны), особенно в таких районах, как Северо-Восточный Дели, Северный Дели и Центральный, могут усугубить ситуацию, если не будут приняты своевременные меры. Юго-Западный Дели и Северный Дели, будучи малонаселенным регионом, должны быть наименее опасными местами в Дели.
В будущих исследованиях можно будет поработать над следующими улучшениями:
- Как упоминалось ранее, Foursquare API не дает очень подробных результатов при использовании для сбора данных о Дели. Другие поставщики данных о местоположении могут быть использованы в дальнейших исследованиях для повышения точности.
- Кроме того, вместо работы с координатами окрестностей, если бы границы соседства могли быть использованы и все места в пределах границ были бы извлечены, это дало бы почти идеальные результаты.
- В этом проекте использовались данные переписи 2011 года. Текущий год - 2020, что означает, что статистика может сильно измениться. Таким образом, работа с последней переписью по мере ее выпуска может улучшить результаты.
6. Заключение
Covid-19 посеял хаос по всему миру, и почти полгода люди на земле потратили на борьбу с пандемией. Благодаря более совершенным стратегиям и более эффективным системам мы сможем лучше решить эту проблему, чтобы решить ее как можно скорее, не только для благосостояния всех людей, но и для защиты экономики. Я надеюсь, что этот мой проект поможет в формировании стратегий смягчения последствий, чтобы все мы могли выиграть эту битву и вернуться к нашей нормальной жизни как можно скорее.
Я хотел бы поблагодарить Coursera, IBM и все факультеты, участвующие в профессиональных сертификационных курсах по Data Science, за то, что они познакомили меня с Data Science и дали мне все навыки, необходимые для проведения анализа проблемы и достижения моих результатов. И последнее, но не менее важное: я надеюсь и молюсь, чтобы мои читатели были в безопасности.
Спасибо, что потратили свое драгоценное время на мою работу.
Ссылка на мою записную книжку - https://nbviewer.jupyter.org/github/nandpop/Coursera_Capstone/blob/master/Predicting%20Covid%20Intensive%20Zones%20-%20Delhi%20%28Notebook%29.ipynb