Программное обеспечение смоделировано по образцу реального мира. Большую часть времени вы можете провести сильное сравнение между ними. Класс в python может иметь дочерние элементы, которые наследуют черты от своего родителя, дерево программного обеспечения может иметь корневой узел и много листовых узлов вверху и т. д., и т. д., и т. д. Искусственный интеллект следует этому шаблону моделирования программного обеспечения. после настоящего. Итак, сначала давайте спросим: Что делает человека «Умным?». Это широкий вопрос, и его трудно четко определить. Однако мы все можем согласиться с тем, что интеллект имеет компоненты знание и предсказание. Если у вас есть знания о вещах и вы можете сделать то, что я бы назвал хорошим предположением о вещах, это свидетельствует об интеллекте.

Искусственный интеллект или ИИ делает именно эти две вещи. Однако для того, чтобы компьютерная программа имела ИИ, ей нужен источник информации, чтобы иметь «знающий» компонент. Это даст ИИ возможность анализировать, обрабатывать и формировать рабочую «ментальную модель».

Исследовательский анализ данных — это способ дополнить эту информацию и предварительно обработать ее, чтобы она была готова для Машины. С этого момента мы будем называть информацию данными, а с помощью EDA мы будем преобразовывать данные во что-то более похожее на информацию, где она может использоваться и иметь смысл.

Как мы уже говорили, машинное обучение является подклассом и даже фундаментальным для ИИ. Данные в EDA имеют две классификации: структурированные данные и неструктурированные. Структурированные данные — это данные, находящиеся внутри структуры, такой как электронная таблица Excel, реляционная таблица или фрейм данных. Другой тип, неструктурированные данные, обычно представлен в формате мультимедиа, таком как видео, изображения, песни, mp3, mp4 и т. д.

Со структурированными данными, также известными как аккуратные данные, существуют определенные концепции, которые помогут нам их обрабатывать. Например, есть понятие центральной тенденции. Это идея о том, что эти данные обычно колеблются вокруг среднего или среднего арифметического, где мы просто складываем все значения и делим количество добавленных значений. Эта серия по центральной тенденции исключительно объяснена, если вы хотите глубже погрузиться в эту тему, вы можете следить за ней. Однако эта идея может быть неуместной и вводящей в заблуждение, поскольку могут быть выбросы, которые исказят это среднее значение, сделав его нерепрезентативным для данных. Если это так, то вместо этого можно использовать медианное или среднее значение или моду (значение, появляющееся чаще всего).

Мы должны учитывать дисперсию или величину того, насколько наши данные отличаются от меры центральной тенденции. Это дает нам информацию о том, насколько велика изменчивость между значениями в наборе данных. В частности, измерения дисперсии дают нам диапазон (максимум-минимум) и изменчивость или наивысшее, наименьшее значение, стандартное отклонение, межквартильный диапазон и дисперсию.

Стандартное отклонение (SD) — это квадратный корень из дисперсии. SD — лучший способ защитить наши данные от выбросов, которые угрожают дополнить общую картину данных. И наоборот, квадрат дисперсии является стандартным отклонением. Дисперсия говорит нам, насколько далеки или близки значения от среднего. Нулевая дисперсия говорит нам, что значения являются средними. Опять же, дисперсия — это квадрат среднего расстояния от среднего.

Квартили — это способ разделить данные на четыре части, которые мы называем четырьмя квартилями. Это полезно для защиты ваших данных от выбросов, которые могут исказить ваши данные. Квартиль 2 или Q2 является медианой, и в этой позиции 50 % данных находятся выше него, а 50 % — ниже него. Q3 — верхний квартиль. Третий квартиль или Q3 является медианой более высоких 50 %, поэтому 50 % верхних значений (25 % от общих значений) будут выше Q3 (это будет 25 % от общего количества данных, чтобы быть четкими). Мы можем использовать эти значения, чтобы определить, насколько разбросаны наши данные с межквартильным диапазоном Q3-Q1, который устойчив к экстремальным значениям. IQR является хорошим показателем дисперсии.

Другой мерой дисперсии является коэффициент вариации. Это измерение рассчитывается путем деления стандартного отклонения на среднее значение, а затем умножения на 100. Это дает нам представление о величине вариации между значениями.

Кроме того, мы можем посмотреть на отдельные значения в наборе данных и получить представление о величине их дисперсии с помощью Z-показателя. Это вычисляется путем вычитания среднего значения из самого значения и последующего деления стандартного отклонения. Это говорит нам, на сколько стандартных отклонений выше или ниже среднего значение. Мы также можем просмотреть сводку по 5 числам или минимальное значение, Q1, медиану (Q2), Q3 и максимальное значение. Асимметрия данных говорит нам о форме набора данных. Если медиана не совпадает со средним значением, то данные имеют асимметрию. Если медиана ниже среднего, это говорит нам о том, что данные имеют положительную или правую асимметрию и, следовательно, имеют выброс, который сдвигает среднее значение вправо.

Мы только что рассмотрели много статистической математики для нашей науки о данных. Теперь давайте обратимся к клавиатуре для работы с вышеуказанными темами.

Блочная диаграмма — это графическое представление дисперсии, квартилей, стандартного отклонения и асимметрии. Коробчатые диаграммы будут отсекать значения, превышающие/ниже 1,5 межквартильного диапазона.

Мы можем распространить эти идеи на несколько переменных и посмотреть, сможем ли мы найти какую-либо корреляцию. Мы можем рассчитать коэффициент ковариации, который является абсолютной величиной. Это даст нам положительные значения, указывающие на то, что они коррелируют. Отрицательное значение говорит нам об отрицательной корреляции между ними. Вы умножаете коэффициент дисперсии переменной 1 на коэффициент дисперсии переменной 2 и делите на количество переменных.

Теперь, когда мы поговорили о математике, важной для науки о данных, мы можем взглянуть на встроенные методы, предоставленные нам библиотеками обработки данных Numpy, Pandas, Matplotlib и Seaborn.

Matplotlib предлагает метод гистограмм, который покажет нам идеи, которые мы обсуждали. Гистограмма — это график числовых данных, позволяющий наблюдать различные частоты. С помощью matplotlib.pyplot.hist(x=”your_x_value”, data=your_data) вы получите желаемый график. Вы можете визуально сделать EDA с помощью гистограммы.

Я использовал этот отличный репозиторий для машинного обучения, чтобы получить наборы данных в Университете Калифорнии в Ирвине. Я вытащил CSV-файл для лесных пожаров из репозитория.

Как видно из гистограммы, чаще всего сгорает 0. Не очень интересно, но здорово для Земли.

Фрейм данных панды имеет встроенные методы. Такие как Dataframe.mean(), .mode(), median(), .quantile (q = 0,50), где q - это то место, где вы передаете нужный квантиль. Как вы можете видеть выше, мы взяли среднее значение и медиану из нашего фрейма данных пожара и нанесли их на график красным и желтым цветом.

С помощью квантиля вы можете рассчитать Inter Quantile Rage с помощью Dataframe.quantile (q = 0,75) - Dataframe.quantile (q = 0,25) для всех столбцов вашего фрейма данных, однако вы можете сделать это визуально с помощью морского ящика, который будет иметь IQR и усы. Seaborn графически покажет нам квартили.

Однако у Pandas есть метод boxplot, который вы можете использовать для всего фрейма данных.

Существуют встроенные методы для дисперсии и стандартного отклонения, такие как DataFrame.var() и DataFrame.std().

Существует метод ковариации DataFrame.cov() и DataFrame.corr(), который даст нам ковариацию и корреляцию.

Но это всего лишь числовые представления этих данных. Мы можем изобразить это графически. У Seaborn есть парный график с аргументом линейной регрессии, который дает линию линейной регрессии для каждой пары переменных.

Просто взглянув на линии линейной регрессии, вы можете определить, что с чем связано. Я могу сказать вам, что на графике выше индекс пожарной погоды (FWI) и код влажности топлива (FFMC) показывают сильные линии регрессии.

Еще лучше мы можем создать тепловую карту, которая покажет в графическом цвете, какие области являются «горячими» или коррелируют с:

Как вы видите на графике, диагональная линия всегда идеально коррелирована (1), так как она соединяется сама с собой на другой оси. Но вы можете видеть, что FFMC и DMC показывают корреляцию 0,38, а Temp и DC — 0,5. Они имеют высокую корреляцию.