Контекст

Вода — это самое основное, что необходимо человеку для выживания. Благодаря техническим усовершенствованиям и заводской установке мы столкнулись с большим загрязнением воды, что привело к ухудшению уровня качества воды до такой степени, что она стала непригодной для питья. Существуют определенные атрибуты, определяющие пригодность воды для питья.

Атрибуты

Независимые переменные:

  1. Значение pH: pH является важным параметром для оценки кислотно-щелочного баланса воды. Это также индикатор кислотного или щелочного состояния воды. ВОЗ рекомендовал максимально допустимый предел рН от 6,5 до 8,5. Текущие диапазоны исследований составляли 6,52–6,83, что находится в диапазоне стандартов ВОЗ.
  2. Жесткость: Жесткость в основном обусловлена ​​солями кальция и магния. Эти соли растворяются в геологических отложениях, через которые проходит вода. Продолжительность контакта воды с веществом, создающим жесткость, помогает определить степень жесткости сырой воды. Первоначально жесткость определяли как способность воды осаждать мыло, вызванное кальцием и магнием.
  3. Твердые вещества (общее количество растворенных твердых веществ — TDS): вода обладает способностью растворять широкий спектр неорганических и органических минералов или солей, таких как калий, кальций, натрий, бикарбонаты, хлориды, магний, сульфаты и т. д. Эти минералы придают нежелательный вкус и разбавляют воду. цвет во внешнем виде воды. Это важный параметр для использования воды. Вода с высоким значением TDS указывает на высокую минерализацию воды. Желаемый предел для TDS составляет 500 мг/л, а максимальный предел составляет 1000 мг/л, что предписано для питьевых целей.
  4. Хлорамины: Хлор и хлорамин являются основными дезинфицирующими средствами, используемыми в системах общественного водоснабжения. Хлорамины чаще всего образуются при добавлении аммиака к хлору для обработки питьевой воды. Уровни хлора до 4 миллиграммов на литр (мг/л или 4 частей на миллион (ppm)) считаются безопасными для питьевой воды.
  5. Сульфат: Сульфаты — это встречающиеся в природе вещества, которые содержатся в минералах, почве и горных породах. Они присутствуют в атмосферном воздухе, грунтовых водах, растениях и пищевых продуктах. Основное коммерческое использование сульфата находится в химической промышленности. Концентрация сульфатов в морской воде составляет около 2700 миллиграммов на литр (мг/л). В большинстве источников пресной воды он колеблется от 3 до 30 мг/л, хотя в некоторых географических точках встречаются гораздо более высокие концентрации (1000 мг/л).
  6. Проводимость: чистая вода не является хорошим проводником электрического тока, а хорошим изолятором. Увеличение концентрации ионов увеличивает электропроводность воды. Как правило, количество растворенных в воде твердых веществ определяет электрическую проводимость. Электропроводность (EC) измеряет ионный процесс в растворе, который позволяет ему проводить ток. По стандартам ВОЗ значение ЕС не должно превышать 400 мкСм/см.
  7. Органический углерод: общий органический углерод (TOC) в исходных водах поступает из разлагающихся природных органических веществ (NOM), а также из синтетических источников. TOC является мерой общего количества углерода в органических соединениях в чистой воде. По данным Агентства по охране окружающей среды США ‹ 2 мг/л в виде TOC в очищенной/питьевой воде и ‹ 4 мг/л в исходной воде, используемой для очистки.
  8. Тригалометаны: ТГМ — это химические вещества, которые можно найти в воде, обработанной хлором. Концентрация ТГМ в питьевой воде варьируется в зависимости от уровня органических веществ в воде, количества хлора, необходимого для обработки воды, и температуры очищаемой воды. Уровни ТГМ до 80 частей на миллион считаются безопасными для питьевой воды.
  9. Мутность: Мутность воды зависит от количества твердых веществ, присутствующих во взвешенном состоянии. Это мера светоизлучающих свойств воды, и тест используется для определения качества сброса сточных вод в отношении коллоидных веществ. Среднее значение мутности, полученное для кампуса Wondo Genet (0,98 NTU), ниже рекомендуемого ВОЗ значения 5,00 NTU.

Зависимые переменные

Портативность: указывает, безопасна ли вода для потребления человеком, где 1 означает пригодную для питья, а 0 означает непригодную для питья.

Чтение набора данных

Первое впечатление

  • Некоторые значения отсутствуют (нам нужно знать долю отсутствующих значений)
  • Данные необходимо масштабировать, поскольку «Твердые вещества» имеют порядок (10⁴), а «Мутность» выглядит в диапазоне от 0 до 10.

Отсутствующие значения

Некоторые наблюдения:

  1. Количество пропущенных значений в «Тригалометаны» составляет 5%, что очень мало и, следовательно, может быть удалено.
  2. Количество пропущенных значений в полях «сульфат» и «ph» составляет 24% и 15% соответственно.
  • Удаление этих значений приведет к удалению информации из набора данных.
  • Поэтому удаление пропущенного значения не является хорошей идеей.
  • Значения должны быть вменены.

Простой импутер

Библиотека обучения Sckit, которая используется для вменения пропущенного значения. Пропущенные значения вменяются со стратегией = «среднее».

Исследовательский анализ данных

Одномерный анализ

Обнаружение аномалий

Аномалия — это фрагмент данных, резко отличающийся от среднего. Метод обнаружения выбросов называется обнаружением выбросов. Выбросы визуализируются с помощью коробчатой ​​диаграммы.

Нам неясна доля присутствующих выбросов, поэтому нам нужно выяснить, в каком количестве у нас есть выбросы. Если количество выбросов меньше 10%, мы оставим его как есть.

метод IQR

Данные, которые не находятся между Q1–1,5*IQR и Q3+1,5*IQR (Q1, Q3, IQR составляют 1-й квартиль, 3-й квартиль и межквартильный диапазон соответственно), будут рассматриваться как выбросы.

Видно, что выбросы в очень меньшем количестве, следовательно, это не будет препятствовать какому-либо статистическому или прогнозному анализу, который будет проводиться в дальнейшем.

Многофакторный анализ

Тепловая карта корреляции

Корреляция между атрибутами минимальна или отсутствует. Все они независимы по своей природе. Это также видно из графика рассеяния, что нет линейной зависимости между переменными.

Парный сюжет

Характеристики не являются линейными по своей природе, что было очевидно из тепловой карты корреляции. Точки плохо разделены. Не существует линейной комбинации, которая могла бы рассказать нам лучшую историю о целевом ярлыке.

Выбор функций

Метод уменьшения входной переменной для вашей модели с использованием только релевантных данных и избавления от шума в данных.

Хи-квадрат тест

Мы использовали тест хи-квадрат, чтобы найти функцию, которая больше всего коррелирует с целевыми данными.

Признаки с p-значением>0,05 очень важны с точки зрения прогнозирования целевого значения. Признаки «ph» и «мутность» могут быть исключены. Функция «Твердые тела» не упоминается на гистограмме, поскольку она имеет большое значение p, из-за которого другие значения p выглядят идентичными.

Т-тест

Данные каждой функции разделяются на основе целевой переменной и обрабатываются как две независимые совокупности. Мы выполним двусторонний t-критерий, чтобы проверить, есть ли какая-либо существенная разница между двумя средними значениями выборки, учитывая различия в размерах выборки и неравную дисперсию.

  • Р-значение мутности, рН, тригалометанов, проводимости и сульфата очень высокое, что означает, что существует огромная разница в обоих средних значениях населения, следовательно, они являются дифференцирующим фактором между двумя классами.
  • Поскольку мы видим, что мутность имеет самые высокие значения p, мы можем определить функцию f от мутности до целевой переменной, чтобы увидеть, помогает ли эта функция нам различать классы.

Анализ главных компонентов (PCA)

Мы выполняем PCA для 9-мерного набора данных и выбираем первые 3 основных компонента для визуализации в 3D-плоскости.

Видно, что точки плохо разделены, поэтому уменьшение размерности не помогает.

Выбор модели

Мы исключаем признаки «ph» и «мутность» и разделяем данные на обучение и тестирование. Мы обучаем модель и выбираем лучшую модель на основе оценки AUC — ROC.

Перед обучением модели классификации мы должны проверить, сбалансированы ли данные или нет.

Данные в некоторой степени сбалансированы, поэтому нам не нужны какие-либо методы передискретизации и недостаточной выборки.

Кривая рабочих характеристик приемника (ROC) вдоль соответствующей кривой площади под кривой (AUC).

  • Логистическая регрессия, дерево решений и классификатор Ada Boost показали очень плохие результаты с AUC, близким к 0,5.
  • По сравнению с другими классификаторами Random Forest работает довольно хорошо с AUC 0,62.