Проекты аналитики данных

Я не поддерживаю и не против употребления алкоголя. Но я считаю, что в пределе все хорошо. В этой статье я собираюсь показать вам анализ данных и визуализацию потребления алкоголя в разных странах мира. Итак, давайте начнем анализ данных с чашки кофе.

Код с анализом

Вы можете выполнить задачу в Google Colab или Jupyter Notebook. Ссылка на набор данных, используемый в этом проекте, приведена в конце статьи.

  • Импортируйте следующие библиотеки
#for mathematical computation
import numpy as np
import pandas as pd
import scipy.stats as stats
#for data visualization
import seaborn as sns
import matplotlib.pyplot as plt
import plotly
import plotly.express as px
from matplotlib.pyplot import figure
% matplotlib inline
  • Теперь загрузите и взгляните на данные. Для этого скачайте набор данных по указанной ссылке в конце этой статьи. Добавьте его в путь и отобразите первые 5 данных набора данных.
df = pd.read_csv("/content/drinks.csv", encoding='latin-1')
df.head()

Нажмите Shift + Enter.

  • Проверка данных
df.info()

В нашем наборе данных всего 193 записи. Проверьте нулевые значения в каждом столбце. Нам повезло, что в нашем наборе данных нет нулевых значений. Вы также можете получить информацию об атрибутах каждого столбца набора данных.

df.describe()

Средняя порция пива по всему миру составляет 106,160622, что является самым высоким показателем среди всех других алкогольных напитков.

  • Нация с самым высоким показателем пива
df_beer = df.sort_values(by='beer_servings', ascending=False)
df_beer.head(15)

Среди 15 ведущих стран Намибия занимает первое место. Здесь самая высокая порция пива, за ней следуют Чехия и другие. Посмотрите на графическое представление этих данных.

px.bar(x='country', y='beer_servings', data_frame=df_beer.head(15), title="Top 15 Countries with highest beer serving")

Если говорить о географическом распределении, то большинство стран из приведенного выше списка - это европейские страны. Если вы планируете открыть пивоваренный завод, то европейские страны должны быть вашим приоритетом.

Большинство из них - небольшие страны.

Экономика и население этих стран меньше.

В большинстве этих стран емкость подачи пива намного выше, чем в среднем по миру.

  • Страна с самым высоким уровнем виноделия
df_wine = df.sort_values(by='wine_servings', ascending=False)
df_wine.head(15)

Взгляните на график.

px.bar(x='country', y='wine_servings', data_frame=df_beer.head(15), title="Top 15 Countries with highest wine serving")

Франция ведет таблицу

По сравнению со странами, где подают пиво, эти страны более стабильны в финансовом отношении. Также можно сказать, что экономика этих стран хорошая.

Население этих стран больше по сравнению с народами, обслуживающими пиво.

  • Корреляция тепловой карты

Давайте выясним соотношение между столбцами.

f,ax = plt.subplots(figsize=(14,10))
sns.heatmap(df.corr(), annot=True, fmt=".2f", ax=ax)
plt.show()

Как видите, общий литр алкоголя сильно коррелирует с подачей пива и частично коррелирует с подачей спирта и подачей вина.

Подача вина и подача спиртных напитков показывает слабую взаимосвязь. В этом есть смысл, правда?

  • График первых 30 стран по раздаче пива, спиртных напитков и вин
plt.figure(figsize=(20,8))
plt.plot(df['country'].head(30),df['beer_servings'].head(30))
plt.plot(df['country'].head(30),df['spirit_servings'].head(30))
plt.plot(df['country'].head(30),df['wine_servings'].head(30))
plt.xticks(rotation=90)
plt.xlabel("country")
plt.ylabel("servings")
plt.legend(['beer_servings','spirit_servings','wine_servings'])

  • Распределение чистого алкоголя
plt.figure(figsize = (10,6))
sns.histplot(df['total_litres_of_pure_alcohol'])
plt.title("Distribution of Total Litres of Pure Alcohol")
plt.show()

  • Связь деревенской подачи пива
px.line(x='country', y='beer_servings', data_frame=df, title="Relation of Beer serving and Countries")

  • Страны с наименьшим употреблением алкоголя
df['country'].loc[df['beer_servings']==df['beer_servings'].min()]

Отсюда можно сделать вывод, что страны Азии потребляют меньше алкогольной продукции, чем страны Европы.

В исламских странах употребляется очень мало алкогольной продукции.

Европейские страны занимают первое место по раздаче пива и вина.

Финансово стабильные страны предпочитают вино пиву.

Ну вот и все.

Поздравляем, вы проанализировали набор данных о потреблении алкоголя. Вы можете копать и сами. Потому что с данными можно многое сделать. И полученная вами информация ценна.

База данных и полный исходный код Github находятся здесь.

Другие проекты в области науки о данных

Самые популярные кибернетические утечки данных (2004–2021 гг.): Анализ и визуализация данных

Визуализация и анализ данных средних статей с использованием Python

Визуализация и анализ данных Spotify с использованием Python

Анализ данных IPL (2008–2020 гг.) С использованием Python

Анализ данных Zomato с помощью Jupyter Notebook

Здравствуйте, меня зовут Рохит Кумар Тхакур. Я открыт для фриланса. Я создаю собственные проекты React и в настоящее время работаю над Python Django. Не стесняйтесь обращаться ко мне ([email protected])

Больше контента на plainenglish.io