Всем привет. Мы рады представить вам наш проект «Мой Vivino».
Для нашего проекта мы получаем набор данных от Kaggle,наш набор данных связан с красными и белыми вариантами вина «Vinho Verde».

О данных

Наш набор данных состоит из 13 столбцов и 6463 строк.
В 1-м столбце есть информация о «типе» вина.

Во 2-м столбце есть информация о «фиксированной кислотности».
Эту особенность мы можем объяснить тем, чтокислоты, которые естественным образом содержатся в винограде, используются для брожения вина и переносятся в вино.

В 3-м столбце есть информация о "летучей кислотности". Этот элемент отвечает за кислоты, которые испаряются при низких температурах.

В 4-м столбце есть информация о «лимонной кислоте». Лимонная кислота используется как кислотная добавка, повышающая кислотность вина.

В 5-м столбце указана информация об остаточном сахаре. Эту особенность мы можем объяснить как количество сахара, оставшегося после прекращения брожения.

В 6-м столбце приведены сведения о «хлоридах». Этот элемент отвечает за количество хлористых солей.

В 7-м столбце приведены сведения о «свободном диоксиде серы». Свободная форма SO2 существует в равновесии между молекулярным SO2 (в виде растворенного газа).

В 8-м столбце содержится информация об «общем двуокиси серы». В этом столбце хранятся данные о количестве свободной и связанной форм S02.

В 9-м столбце информация о «плотности». Плотность винного сока в зависимости от процентного содержания спирта и сахаристости

В 10-м столбце есть информация о «pH». Этот элемент отвечает за меру кислотности вина.

В 11-й колонке есть информация о «сульфатах». Эту особенность мы можем объяснить количеством сульфата калия в качестве добавки к вину.

В 12-й колонке есть информация об алкоголе. Сколько спирта содержится в данном объеме вина. Вино обычно содержит от 5 до 15% спиртов.

В 13-й колонке есть информация о качестве. В этом столбце хранятся данные об оценках от 0 (очень плохо) до 10 (отлично) винными экспертами.

А теперь давайте посмотрим на наш набор данных

Сводная информация о нашем наборе данных представлена ​​на рисунках ниже.

Анализ данных и визуализация

Для корролирования мы использовали метод «Пирсона». Здесь мы показали корреляцию со столбцом алкоголь. Это поможет нам увидеть столбцы, связанные со столбцом алкоголя. На картинке ниже мы визуализировали наиболее подходящую функцию для «алкоголя». Это столбец плотности.

На рисунке ниже мы видим взаимосвязь между другими функциями.

Из этих графиков мы видим некоторые корреляции: между фиксированной кислотностью и рН, небольшую между остаточным сахаром и плотностью, между свободным диоксидом серы и общим диоксидом серы выше, чем в других. А теперь давайте посмотрим на эти сюжеты.

О круговой диаграмме

В функции "получить лучшие алкогольные напитки" мы сгруппировали по "алкоголю", нашли значения качества и подсчитали их, а затем нанесли на круговую диаграмму. .

Машинное обучение

Для этой части нашего проекта мы выбрали 5 моделей машинного обучения. Это: KNeighbors, DecisionTree, SVC, GradientBoosting и RandomForest. Модели помогают сделать аналитику умнее и быстрее.

Сводка

Из нашего исследования мы можем сказать, что результат зависит от многих факторов, главное качество данных и, конечно, количество данных будет иметь свое место. Сначала мы использовали другие данные, столбцов было не так много, поэтому в середине нашего проекта мы запутались. Потом мы поискали другие данные, нашли эту. Мы пытались совместить их, но, к сожалению, это было невозможно. И поэтому мы попытались использовать второй набор данных.

Лучшая модель для обучения нашего набора данных — RandomForest.

и его оценка 0,816705

Большое спасибо за внимание :-)