Анализ и группировка местоположений для разработки оптимальных стратегий смягчения последствий с учетом местоположения

Примечание редакции: Towards Data Science - это издание Medium, в основном основанное на изучении науки о данных и машинного обучения. Мы не являемся специалистами в области здравоохранения или эпидемиологами, и мнения, изложенные в этой статье, не следует интерпретировать как профессиональные советы. Чтобы узнать больше о пандемии коронавируса, нажмите здесь.

1. Введение

1.1 Предпосылки

Covid-19 - это инфекционное заболевание, которое вызвало хаос в современном мире, нарушив повседневную жизнь каждого гражданского населения на Земле. Вирус, который в первую очередь поражает легкие, заразил 4543390 человек во всем мире, и 303 711 человек погибли из-за него (по состоянию на 15 мая 2020 года). Пандемия вынудила мировых лидеров принять строгие меры, такие как общенациональные блокировки, чтобы ограничить распространение вируса. Но блокировки не позволяют гражданским лицам работать и зарабатывать себе на жизнь, и их последствия беспокоят не только бедных, но и все слои общества, даже сами правительства. В такой ситуации, когда экономика падает, а страны могут приближаться к рецессии, люди могут быть вынуждены уйти, работать и жить вместе с вирусом. Это создает огромный риск для таких стран, как моя, Индия, с огромной плотностью населения.

1.2 Проблема

Чтобы предвидеть последствия снятия блокировки, мое исследование и этот блокнот помогут людям понять, в каких районах может наблюдаться всплеск случаев заболевания Covid-19. Я буду использовать данные о плотности населения и данные о местоположении популярных мест (например, популярных рынков), чтобы оценить взаимодействие, происходящее в конкретном месте. Окрестности будут сгруппированы в группы, чтобы можно было разработать общие и эффективные стратегии для работы с похожими местами. Я сосредоточусь на предсказаниях в основном в моем городе (Дели, столица Индии).

1.3 Проценты

Благодаря этому, я надеюсь, читатели смогут лучше понять потенциально опасные области, и власти могут принять меры по заблаговременному введению ограничений в такие области, чтобы уменьшить распространение вируса и, следовательно, страдания для жизни гражданского населения.

Я надеюсь и молюсь, чтобы тот, кто это читал, был в безопасности.

2. Данные

Чтобы решить указанную выше проблему, я использовал следующие данные:

Окрестности Дели (и основы их сегментации)

В Дели 9 районов, и они объединены в один из этих районов.

Ссылка - https://en.wikipedia.org/wiki/Neighbourhoods_of_Delhi

Обратите внимание, что эти данные получены по данным переписи населения 2011 года, согласно которой округов было 9, а не 11 округов в соответствии с текущей ситуацией. Поэтому я буду добавлять места в ЮГО-ВОСТОЧНОМ ДЕЛИ под ЮЖНЫМ ДЕЛИ и места в ШАХДАРЕ под ВОСТОЧНЫМ ДЕЛИ.

Эти данные будут использоваться для определения окрестностей, когда я буду наносить результаты на карту. Я воспользовался функцией «поиск» в Картах Google, чтобы выяснить приблизительные координаты каждого района и создал свой собственный набор данных.

Данные о местоположении популярных заведений - предоставлены Foursquare API

Foursquare API предоставляет данные о частоте появления различных заведений в определенном месте. Я буду использовать данные о местоположении, чтобы идентифицировать кластеры, в которых присутствуют объекты с высокой посещаемостью (например, рынки). Они будут обозначены как районы с горячими точками.

Следует отметить, что Foursquare API не содержит подробных сведений о местах проведения мероприятий в Дели, поэтому это лишь приблизительная картина реального мира. Но мы можем с уверенностью сказать, что это хорошее приближение и удовлетворит наши потребности.

Плотность населения различных районов по данным переписи населения 2011 г.

Данные о плотности населения будут использоваться для обозначения районов с потенциально высоким риском передачи инфекции в сообществах из-за высокой близости к условиям жизни.

Ссылка - https://www.census2011.co.in/census/state/districtlist/delhi.html

Данные о границах района

Я создал собственный набор данных с координатами многоугольника каждого района Дели. Я использовал два веб-сайта - http://nominatim.openstreetmap.org/ и http://polygons.openstreetmap.fr/index.py, чтобы сначала извлечь местоположение места на карте, а затем извлечь его координаты соответственно.

3. Методология

Чтобы спрогнозировать зоны распространения COVID в Дели, мы должны выполнить следующие шаги:

  1. Найдите популярные категории заведений в каждом районе
  2. Сформируйте кластеры кварталов в соответствии с преобладающими категориями мест проведения с помощью KMeans Clustering.
  3. Наложите слой картографической карты плотности населения в каждом районе, чтобы правильно спрогнозировать серьезность возможной ситуации.

Изначально я начал с визуализации окрестностей и мест проведения мероприятий в каждом районе.

Сгруппировав объекты по районам, мы видим, что был возвращен только 161 квартал. Это означает, что из 177 районов в 16 не было результатов.

Теперь я создал таблицу, содержащую 2 самые популярные категории мест в каждом районе.

Согласно найденным наиболее популярным местам, я использовал кластеризацию KMeans для группировки похожих районов. Я использовал сравнение показателей силуэта, чтобы найти оптимальное значение K (то есть количество кластеров).

Оптимальное значение K оказалось равным 6, после чего окрестности были сгруппированы в 6 кластеров с помощью KMeans Clustering. Затем результат был объединен в единый фрейм данных.

4. Результат

Создав карту Choropleth с использованием данных о плотности населения по районам, я пришел к этому.

После этого я добавил кластеры окрестностей на эту карту, чтобы мы могли знать кластеры соседства и степень беспокойства, требуемую для них, в соответствии с атрибутом кластеризации и плотностью населения в этом месте.

Легенда:

  • Наибольшее беспокойство - КРАСНЫЙ, ЖЕЛТЫЙ
  • Умеренно касательно - ФИОЛЕТОВЫЙ, СИНИЙ
  • Наименее опасный - БИРЮЗОВЫЙ
  • Не касается - ЗЕЛЕНЫЙ

Атрибуты кластеризации соседства:

  1. Районы с преобладанием "ресторанов быстрого питания" и других социально активных мест. (Больше всего беспокоит) - желтый маркер
  2. Микрорайоны с жилыми комплексами и зонами повседневной активности населения. (Умеренно опасно) - синий маркер
  3. Районы со множеством заведений, связанных с повседневной жизнью. (Умеренно опасно) - фиолетовый маркер
  4. Районы с преимущественно "индийскими ресторанами". (Больше всего беспокоит) - Красный маркер
  5. Кварталы только с объектами первой необходимости. (В наименьшей степени) - бирюзовый маркер
  6. Районы с очень небольшим количеством заведений. (Не касается) - зеленый маркер

5. Обсуждение

С помощью окончательной карты мы можем увидеть, какие все районы уязвимы для распространения вируса, а также о том, о каких районах в каждом районе нужно позаботиться.

Места с красными и желтыми маркерами (наиболее опасные зоны), особенно в таких районах, как Северо-Восточный Дели, Северный Дели и Центральный, могут усугубить ситуацию, если не будут приняты своевременные меры. Юго-Западный Дели и Северный Дели, будучи малонаселенным регионом, должны быть наименее опасными местами в Дели.

В будущих исследованиях можно будет поработать над следующими улучшениями:

  • Как упоминалось ранее, Foursquare API не дает очень подробных результатов при использовании для сбора данных о Дели. Другие поставщики данных о местоположении могут быть использованы в дальнейших исследованиях для повышения точности.
  • Кроме того, вместо работы с координатами окрестностей, если бы границы соседства могли быть использованы и все места в пределах границ были бы извлечены, это дало бы почти идеальные результаты.
  • В этом проекте использовались данные переписи 2011 года. Текущий год - 2020, что означает, что статистика может сильно измениться. Таким образом, работа с последней переписью по мере ее выпуска может улучшить результаты.

6. Заключение

Covid-19 посеял хаос по всему миру, и почти полгода люди на земле потратили на борьбу с пандемией. Благодаря более совершенным стратегиям и более эффективным системам мы сможем лучше решить эту проблему, чтобы решить ее как можно скорее, не только для благосостояния всех людей, но и для защиты экономики. Я надеюсь, что этот мой проект поможет в формировании стратегий смягчения последствий, чтобы все мы могли выиграть эту битву и вернуться к нашей нормальной жизни как можно скорее.

Я хотел бы поблагодарить Coursera, IBM и все факультеты, участвующие в профессиональных сертификационных курсах по Data Science, за то, что они познакомили меня с Data Science и дали мне все навыки, необходимые для проведения анализа проблемы и достижения моих результатов. И последнее, но не менее важное: я надеюсь и молюсь, чтобы мои читатели были в безопасности.

Спасибо, что потратили свое драгоценное время на мою работу.

Ссылка на мою записную книжку - https://nbviewer.jupyter.org/github/nandpop/Coursera_Capstone/blob/master/Predicting%20Covid%20Intensive%20Zones%20-%20Delhi%20%28Notebook%29.ipynb