Проект анализа данных: https://goo.gl/GJ7HM2

Проект анализа данных: https://goo.gl/GJ7HM2

Преступные инциденты в округе Сан-Диего

Вместо обычных проектов UX / UI я перевел свои навыки на анализ данных (нет, не только потому, что это был факультатив в колледже).

Для этого проекта мне и моей группе пришлось выбрать довольно большой набор данных и проанализировать его. Его анализ означал, что мы должны были создавать исследовательские вопросы, выдвигать гипотезы и находить результаты. Мы бы проанализировали набор данных с помощью программного приложения под названием MatLab. (Я не буду вдаваться в подробности аспекта программирования.)

Мы решили использовать набор данных, в котором тема затрагивает большинство из нас, живущих в сообществе Сан-Диего: преступность в Сан-Диего. (Http://data.sandiegodata.org/dataset/clarinova_com-crime-incidents-casnd-7ba4-extract)

Вопросы исследования

С таким большим набором данных, как у нас, стало немного сложно определить вопросы исследования, на которые мы могли бы успешно ответить. Мы обдумывали множество разных вопросов, пока не пришли к общей теме - времени. Мы хотели сосредоточиться на времени как на главной переменной, поскольку считали его важным в определении тенденций / распространенности преступности.

Различается ли преступность по регионам в зависимости от времени суток?

2. Каковы закономерности преступлений с течением времени? Другими словами, циклична ли преступность? Можете ли вы предсказать тенденции преступности в течение года?

Методы исследования

Различается ли преступность по регионам в зависимости от времени суток?

Чтобы узнать, группируется ли преступность в регионах Сан-Диего в зависимости от времени суток, наша группа решила использовать кластеризацию K-средних, которая позволяет группировать похожие данные вместе в определенном регионе.

Во-первых, нам нужно было визуализировать и построить наш набор данных с использованием трехмерной карты. Мы создали трехмерную карту с долготой (x), широтой (y) и временем дня в минутах (z). Затем мы выполнили алгоритмы K-средних на наших графиках с разными значениями K: 6, 12 и 30.

Чтобы ответить на второй вопрос, наша группа хотела визуализировать данные, чтобы лучше понять модели преступности. Вместо этого только на этот раз мы использовали визуализацию, чтобы найти тенденцию среди данных, используя входные переменные: время дня, день недели и данные за месяц.

Мы использовали комбинацию базисных функций для представления каждой из наших входных переменных. Кроме того, мы построили полиномиальные модели более высокого порядка на случай, если они лучше представляют наш набор данных. Затем мы выбрали наиболее подходящую модель для точного прогнозирования непрерывного количества преступлений с учетом наших данных.

Чтобы выбрать лучшую модель, наша группа меняла один входной параметр за раз при использовании метода перекрестной проверки 70/30. Мы выбрали модель, которая лучше всего представляет наш набор данных, вычислив сумму квадратов ошибок для значений данных тестового набора. Затем мы выбрали модель с наименьшим значением теста SSE, поскольку она наиболее точно предсказывает закономерности преступности во времени.

Результаты

Кластеризация K-средних (вопрос 1). После выполнения кластеризации K-средних для наших данных о преступности с различными значениями k (K = 6, 12, 30) полученные трехмерные графики не кластеризовались как ожидал. Мы надеялись найти группы для разных регионов Сан-Диего в разные промежутки времени. Однако вместо этого наши графики показали, что кластеры сгруппированы исключительно по разному времени дня.

Циклическая визуализация (вопрос 2): На первый взгляд, наш набор данных показывал некоторую тенденцию к преступности за несколько месяцев в пределах данного года. Как правило, мы видим явное падение с января по февраль, за которым следует подъем в марте. По мере приближения года к летним месяцам количество преступлений имеет тенденцию к пику. Вслед за ростом преступности начинает падать по мере приближения зимних месяцев. На протяжении всех лет их преступные тенденции имеют схожую форму, что позволяет предположить, что преступность может быть цикличной и может быть проанализирована в дальнейшем.

Полиномиальная линейная регрессия (вопрос 2): Из трех моделей полиномиальной линейной регрессии второй порядок имел самую низкую SSE из трех. Модели третьего и второго порядка были очень близки с точки зрения SSE. Однако мы не хотели перегружать наши данные и предпочли второе третьему. Форма второго порядка очень похожа на модель косинуса и косинуса / синуса. Модель косинус / синус имеет самый низкий SSE из всех пяти моделей.

Используя нашу модель косинуса / синуса, мы смогли предсказать тенденцию преступности в течение года. Поскольку мы прогнозируем количество преступлений (y) в данном месяце (x), мы пометили наши месяцы от 1 до 12 (т. Е. Январь = 1, февраль = 2 и т. Д.)

Хотя мы не смогли увидеть, как преступность была регионализирована в Сан-Диего в разное время в течение дня, мы смогли обнаружить циклическую тенденцию в количестве преступлений, совершенных в течение 5 лет. После выполнения регрессии для определения нашей лучшей модели (косинус / синус), отражающей эту тенденцию, мы смогли спрогнозировать количество преступлений для каждого месяца года.

Вывод

Успех нашего проекта во многом зависел от результатов наших визуализаций. Если точки данных выглядели так, как будто не было закономерностей или тенденций, мы не могли продолжить использование методов.

Что прошло хорошо, так это то, что мы смогли успешно написать код, необходимый для предварительной обработки данных и применить его к нашим основным функциям с точки зрения K-средних и линейной регрессии.

Что не так хорошо, так это то, что предварительная обработка данных заняла намного больше времени, чем ожидалось. Мы пытались преобразовать данные времени в числа, но Matlab не совсем понимал, что мы пытаемся делать с нашими данными. Что можно было улучшить, так это делегирование задач. Мы не были организованы и немного пострадали из-за этого.

В целом проект удался. Я многому научился, потому что мы применили эти методы к реальным данным. Мне было трудно найти вопросы, на которые было бы нелегко ответить. Проект помог мне узнать больше и лучше понять, как работают методы и как анализировать данные и результаты. Это также дало мне осознание того, что анализы не всегда будут успешными и в этом есть свои недостатки.