Привет, мы снова здесь. Сегодня я расскажу вам о первом шаге, который мы, специалисты по данным, делаем в анализе данных. Великий «EDA» :)
EDA означает «исследование данных». Так что же делает этот EDA? Почему мы это используем? Как мы его используем? и т. д. Не волнуйтесь, ответы на эти и другие вопросы вы получите уже сейчас. Итак, если вы готовы, приступим.

В статистике исследовательский анализ данных (EDA) - это подход к анализу наборов данных для обобщения их основных характеристик, часто с использованием визуальных методов. Статистическая модель может использоваться или нет, но в первую очередь EDA предназначена для того, чтобы увидеть, что данные могут сказать нам, помимо формального моделирования или задачи проверки гипотез.

Я хотел бы показать вам EDA на одном из самых известных проектов Kaggle, Titanic.

  • Загрузить и изучить файл

df.head () показывает первые 5 строк данных. Он показывает первые 20 строк данных, потому что я заключил 20 в скобки.

df.sample () показывает случайную строку данных. Если вы введете число в скобках, оно покажет это количество случайных строк из данных.

df.tail () показывает последние 5 строк данных. И здесь, если вы введете число в скобках, оно покажет это количество строк с конца данных.

df.isnull (). sum () показывает количество пустых данных в данных для каждой функции. Например, в столбце «Возраст» 177 пустых данных. Эта функция очень важна, потому что нам нужно заполнить пустые данные соответствующими методами, прежде чем выполнять машинное обучение.

df.info () позволяет нам видеть тип столбцов, общее количество строк и столбцов в данных. Он также показывает количество ненулевых данных для каждого столбца. Благодаря этой функции мы можем обнаруживать столбцы, которые являются объектами, и делать эти столбцы подходящими для использования в машинном обучении.

  • Анализируйте данные

df.describe () выполняет следующие действия для каждого столбца: count, mean, std (стандартное отклонение), min, max,% (25,50 и 75)

Эта функция очень удобна для обнаружения выбросов. Значения 3 std справа от среднего и 3 std слева от среднего являются выбросами.

df.corr () вычисляет корреляцию для каждого столбца с другими функциями. Таким образом, нам становится легче определить столбцы, которые мы будем использовать при машинном обучении.
Мы не используем функции, которые коррелируют более чем на 90% с нашим целевым столбцом, потому что данные в этих функциях дублируются в другая форма.

И это все. Это наши основные функции EDA. И это дает нам большое удобство для изучения и понимания данных.

Мы подошли к концу другой статьи. Надеюсь, это было понятно. Если у вас есть что спросить или вы хотите поделиться со мной, оставляйте комментарии. Увидимся в следующий раз, береги себя :)