1. Введение

Бангкок — один из самых посещаемых городов мира. Когда посетители, особенно иностранные, планируют поездку, им необходимо изучить места и постараться получить как можно больше информации о городе.

Это могут быть районы, населенный пункт, рынок, ресторан, включая анализ районов.

Было бы полезно иметь приложение, которое упростило бы задачу, рассматривая сравнительный анализ окрестностей с предоставленными факторами.

Этот проект помогает конечным пользователям достичь результатов, рекомендуя 5 лучших мест в каждом районе Бангкока.

2. Наборы данных и API:

• Данные о районах Бангкока

Красивый веб-скрапинг супа используется для извлечения списка 50 районов Бангкока со следующего URL-адреса: https://en.wikipedia.org/wiki/List_of_districts_of_Bangkok

• API Foursquare:

Этот API имеет базу данных из более чем 105 миллионов мест. Этот проект будет использовать API Four-square в качестве основного источника сбора данных. Многие организации используют геотеги для своих фотографий с подробной информацией о месте назначения, а также предоставляют контекстно релевантные места для тех, кто ищет место, где можно поесть, выпить или исследовать. Этот API предоставляет возможность выполнять поиск местоположения, обмен информацией о местоположении и сведения о бизнесе. Пользователи Foursquare также могут использовать фотографии, советы и отзывы многими продуктивными способами, чтобы повысить ценность результатов.

• Фолиум

Библиотека визуализации Python будет использоваться для визуализации кластерного распределения районов города Чикаго на интерактивной карте листовок. Будет проведен обширный сравнительный анализ двух случайно выбранных районов мира, чтобы получить желаемые сведения из результатов с использованием научных библиотек Python Pandas, NumPy и Scikit. -учиться.

• Пакеты Python

• Pandas — библиотека для анализа данных

• NumPy — библиотека для векторной обработки данных.

• JSON — библиотека для обработки файлов JSON.

• Geopy — получение данных о местоположении.

• Запросы — библиотека для обработки http-запросов.

• Matplotlib — модуль построения графиков Python

• Sklearn — библиотека машинного обучения Python.

• Folium — библиотека рендеринга карт.

3. Методология

3.1 Исследовательский анализ

Сравнение численности населения в каждом районе

Как показано на Рисунке 1, Бангкхэ имеет самую высокую численность населения по сравнению с другими городами: в этом районе проживает почти 200 000 человек. За ними следуют Банг Кхен, Сай Май и Кхлонг Сам Ва с населением 189 000, 188 000 и 169 000 человек соответственно.

Что касается района с наименьшим населением, то это Сампхантхавонг с населением 27 000 человек, за которым следуют Банг Рак, Пом Прап Саттру Фай и Патхум Ван с населением 48 000, 51 000 и 53 000 человек.

Сравнение количества подрайонов

На Рисунке 2 представлены первые пять районов, которые составляют наибольшее количество подрайонов. Во-первых, Пхра Накхон имеет самые высокие подрайоны, на которые приходится 12. На втором месте по количеству находятся Нонг Чок, Фаси Хареон и Тонбури.

На рис. 3 показано соотношение количества подрайонов и численности населения. Как видно из рисунка выше, корреляции между количеством подрайонов и численностью населения в Бангкоке не существует. Другими словами, районы с большей численностью населения не составляют больше подрайонов и наоборот.

3.2 Кластеризация K-средних

В этом проекте применяется алгоритм неконтролируемого машинного обучения кластеризации K-mean для кластеризации мест на основе категории места, такой как рестораны, парк, кафе, тренажерный зал, клубы и т. д. Это позволит лучше понять сходства и различия между выбранными районами для получить больше информации и с легкостью сделать вывод, какое соседство побеждает другое.

Кстати, прежде чем мы начнем применять K-Mean Clustering, нам нужно определить количество Kth.

3.2.1 Анализ локтя

На рис. 4 показан анализ локтя, применяемый для нахождения оптимального числа Kth для K-Mean. Однако, как показано, очевидной точки локтя нет. Можно сделать вывод, что анализ локтя не может быть подходящим методом для набора данных.

3.2.2 Анализ силуэта

Как показано на рисунках 5 и 6, n_clusters = 7 кажется наилучшим оптимальным числом. Это связано с тем, что значения 2,3,4 и 5 имеют большие колебания размеров силуэтных участков. Принимая во внимание, что значение 7 означает более или менее одинаковую толщину, и все кластеры выше средней оценки силуэта.

4. Результаты

Кластер 0

Учитывая Кластер 0, 1-е общее место проведения состоит из 4 кафе, 4 тайских ресторанов, 1 ресторана Som Tum, 1 китайского ресторана, 1 японского ресторана. Поскольку ресторанов больше всего в кластере, мы можем сказать, что кластер 0 — это кластер ресторанов.

Кластер 1

Принимая во внимание Кластер 1, все 1-е общие места проведения - это Лапшичная, можно сделать вывод, что этот кластер является кластером Лапшичной.

Кластер 2

Что касается Кластера 2, наиболее распространенным местом является тайский ресторан. Можно сказать, что это кластер тайских ресторанов.

Кластер 3

Что касается кластера 3, то в этом кластере есть только один район. Самое популярное заведение — ресторан «Азия».

Кластер 4

Принимая во внимание Кластер 4, все 1-е общее место проведения - это Круглосуточный магазин, можно сделать вывод, что этот кластер является кластером Круглосуточный магазин.

Кластер 5

Что касается кластера 5, то в этом кластере есть только один район. Самое популярное место — зоомагазин.

Кластер 6

Что касается кластера 6, то в этом кластере есть только один район. Самое популярное место — блошиный рынок.

5. Обсуждение

В данном исследовании Бангкок — большой город с высокой плотностью населения на узкой территории. Общее количество измерений и плотность населения в 50 районах могут варьироваться. Различные подходы исследовательского анализа применяются для понимания данных.

Кроме того, чтобы найти лучшее количество кластеров. Анализ локтя был впервые применен. Однако локтевой точки не существовало. Возможно, это связано с тем, что анализ локтя не подходит для данных. Следовательно, анализ силуэта также использовался впоследствии и обнаружил, что 7 является оптимальным количеством кластеров.

Анализ завершился визуализацией местоположения каждого кластера объектов, помеченного разными цветами для разных кластеров. Кроме того, в отчет также включены таблицы, демонстрирующие районы и их наиболее распространенные места в каждом кластере.

6. Заключение

Бангкок является одним из городов, привлекающих большое количество иностранных гостей. Одной из причин может быть наличие различных туристических достопримечательностей, от ресторанов до круглосуточных магазинов. Люди могут применить результаты, чтобы увидеть наиболее распространенные места в каждом районе. Находки представляют ценность как для посетителей, так и для деловых людей. Посетители могут увидеть находки, чтобы найти, что посетить в каждой области. Деловые люди могут найти брешь, чтобы открыть свой бизнес по соседству.