Качество воды – это состояние воды, наблюдаемое по ее физическим, химическим и биологическим характеристикам. Качество воды также показывает состояние воды, которое видно из характеристик. Цель обработки этого набора данных — узнать, насколько вода хороша для нашей повседневной деятельности или питья в чистом виде. Я пробую этот набор данных, используя модели машинного обучения — неконтролируемое обучение. У меня есть 2 категории, 0 для непригодной для питья чистой воды и 1 для подходящей воды.

Этот набор данных содержит функции, влияющие на пригодность. Набор данных имеет некоторые особенности.

Исследовательский набор данных

Прежде чем создавать модели машинного обучения, мы должны знать, какое распределение имеет наш набор данных.

Если мы группируем наши существующие наборы данных, у нас есть классификация 1998 образцов для класса 0 и 1278 образцов для класса 1. Это означает, что у нас всего 1998 проб воды, которую можно пить. Но у нас есть разный результат, если мы используем распределение и данные из набора данных.

Одномерный анализ

Одномерный отбор необходим, чтобы увидеть пригодность некоторых функций, чтобы EDA мог дать представление о необработанных данных.

Мы используем диаграмму рассеяния, чтобы увидеть наибольшее распределение

Давайте посмотрим, используем ли мы рН в качестве стандарта для других, рН по сравнению с тригалометанами, рН по сравнению с жесткостью, рН по сравнению с твердыми веществами и рН по сравнению с хлорамином, все они имеют нормальный рН. Давайте попробуем стандарт ВОЗ

Точечная диаграмма и групповые данные, рекомендуемый ВОЗ диапазон pH 6,5–8,5, если все признаки совместить с рекомендуемыми безопасными значениями, результата не выйдет. Таким образом, его необходимо пересмотреть, используя другие вспомогательные переменные.

Многофакторный анализ

Тепловая карта корреляции

Хлорамины, тригалометаны и мутность имеют наибольшее отношение к питьевой воде.

Предварительная обработка набора данных

Я разделил набор данных на 20% тестового набора и 80% на тренировочный набор.

У нас есть пропущенные значения pH, поэтому мы должны обработать их перед моделированием набора данных.

Определение и оценка модели

У меня есть 7 моделей машинного обучения:

1. Логистическая регрессия

2. Дерево решений

3. Классификатор случайного леса

4. Наивный Байес

5. Адабуст

6. КНН

7 моделей дали некоторый результат, потому что набор данных касается здоровья, поэтому мы решили использовать отчет о точной классификации. Хорошей моделью является классификатор случайного леса.

Хорошей моделью является Rando Forest Classifier. Это результат.

После того, как мы получим хорошую модель, мы переходим к выводу модели.

Вывод модели

Данные вывода модели являются частью набора данных о питьевой воде. Но мы сохранили 15 данных в наборе данных предварительной обработки. Таким образом, это исключенный тестовый и обучающий набор данных.

Прежде чем использовать вывод данных, мы должны изучить набор данных. Есть ли у нас пропущенные значения или нет.

У нас есть 4 отсутствующих значения в функции pH, поэтому мы решили обработать отсутствующие значения. После этого шаг масштабирования признаков, применение классификатора случайного леса для вывода модели, так что это результат.

Данные модели Inference in Potability — Prediction имеют 0 баллов. Это означает, что вода не будет хорошей, если мы будем пить прямо.

Анализ данных

1. Существующие выборки данных взяты из 15 выборок (будет 10 выборок, потому что есть пропущенные значения)

  1. В качестве модели используется классификатор случайного леса.
  2. Результаты не рекомендуется пить воду

Бизнес-анализ

  1. Результаты вывода данных показывают, что некоторые из них, которые были оценены как несоответствующие, на самом деле были предсказаны с использованием модели машинного обучения, которую можно было использовать только как чистую воду.
  2. В этом случае будут запланированы инвестиции в развитие поставщиков питьевой воды и чистой воды, так как все данные должны быть обучены и видны, в каких образцах действительно результаты Питьевой 1, чтобы их можно было использовать в качестве рекомендации для регионов. которые могут обеспечить питьевой водой из родников,
  3. Если полученная питьевая пригодность равна 0, ее можно использовать для получения чистой воды для клиентов, не являющихся поставщиками питьевой воды.
  4. На этом этапе инвестиционное развитие должно быть рассмотрено с учетом данных о дебете воды из источников и данных о потенциальных потребителях, чтобы определить, может ли вода удовлетворить ежедневные потребности.
  5. Расположение в горах, предполагается, что в процессе распределения клиентам без помощи насоса (для снижения затрат на обслуживание насоса, топлива и закупок), поэтому географическое положение водохранилища и уклон распределительной трубы должны быть обязательным.

Ссылка: https://www.kaggle.com/datasets/adityakadiwal/water-potability