«Важность описательной статистики в машинном обучении: подробное руководство»

Введение:

Описательная статистика — это раздел статистики, который фокусируется на обобщении и описании ключевых характеристик набора данных. Он позволяет понять лежащие в основе закономерности и отношения в данных, а также выявить любые выбросы или аномалии, которые, возможно, необходимо устранить.

Описательная статистика — важный инструмент машинного обучения, который помогает нам лучше понять набор данных, прежде чем мы начнем строить наши модели. Эти статистические данные позволяют нам суммировать ключевые характеристики данных, что имеет решающее значение для таких задач, как очистка данных, выбор функций, масштабирование данных и оценка модели.

Например, ящичковая диаграмма может быть отличным способом быстро определить любые выбросы в данных. Выбросы — это значения, которые намного выше или ниже, чем остальные данные, и часто могут искажать наши модели, если их не учитывать должным образом. Используя блочную диаграмму, мы можем легко увидеть, есть ли какие-либо выбросы, и принять соответствующие меры.

Еще одним полезным инструментом описательной статистики является корреляционная матрица. Это позволяет нам увидеть, как различные функции в данных связаны друг с другом. Если у нас много функций, мы можем использовать матрицу корреляции, чтобы определить, какие из них являются наиболее важными и должны быть включены в наши модели.

В дополнение к этим методам мы также можем использовать методы масштабирования данных, такие как стандартизация или нормализация, чтобы повысить точность нашей модели. Стандартизация включает в себя преобразование данных таким образом, чтобы их среднее значение равнялось нулю, а стандартное отклонение было равно единице, а нормализация включает в себя масштабирование данных в диапазоне от 0 до 1. Оба эти метода помогут улучшить производительность наших моделей, обеспечив что все функции находятся в одинаковом масштабе.

Мы также можем использовать различные показатели, такие как среднеквадратическая ошибка, для оценки производительности наших моделей. Это позволяет нам увидеть, насколько хорошо наши модели предсказывают переменную результата, и поможет нам определить любые области, в которых нам необходимо внести улучшения.

Вот несколько примеров того, как описательная статистика может использоваться в машинном обучении:

1. Очистка данных:

При работе с данными для машинного обучения важно убедиться, что данные чистые и не содержат ошибок или аномалий. Описательная статистика может помочь в решении этой задачи, выявляя любые проблемы в данных.

Например, допустим, у нас есть набор данных, который содержит информацию о ценах на жилье. Прежде чем мы начнем строить нашу модель, нам нужно убедиться, что данные точны и надежны. Один из способов сделать это — использовать описательную статистику для выявления любых выбросов в данных.

Для этого мы можем создать коробчатую диаграмму, показывающую распределение цен на жилье в нашем наборе данных. Это позволит нам увидеть, есть ли какие-либо точки, которые намного выше или ниже остальных данных, что может указывать на ошибку или аномалию. Если мы обнаружим какие-либо выбросы, мы можем исследовать их дальше, чтобы определить, являются ли они законными точками данных или их необходимо удалить.

Используя таким образом описательную статистику, мы можем гарантировать, что наша модель построена на точных и надежных данных, что поможет улучшить ее производительность и точность.

Это создаст коробчатую диаграмму переменной «цена», которую можно использовать для выявления любых выбросов в данных.

2. Выбор функций:

При построении модели для машинного обучения очень важно выбрать наиболее важные функции, которые имеют отношение к прогнозированию целевой переменной. Это может помочь нам избежать переобучения модели и повысить ее точность. Описательная статистика может быть полезным инструментом для определения того, какие функции являются наиболее важными.

Например, допустим, у нас есть набор данных, содержащий информацию об истории покупок клиентов, и мы хотим определить наиболее важные функции для прогнозирования оттока клиентов. Используя описательную статистику, мы можем посмотреть, какие функции наиболее сильно коррелируют с целевой переменной, которой в данном случае является отток клиентов.

Один из способов сделать это — создать матрицу корреляции, которая показывает отношения между всеми различными функциями в наборе данных. Это позволит нам увидеть, какие функции имеют наибольшую корреляцию с целевой переменной, что может помочь нам определить, какие из них наиболее важны для прогнозирования оттока клиентов.

Как только мы определили наиболее важные функции, мы можем использовать их для построения нашей модели и делать более точные прогнозы об оттоке клиентов. Таким образом, используя описательную статистику, мы можем повысить производительность наших моделей машинного обучения и принимать более обоснованные решения на основе данных.

Это создаст тепловую карту матрицы корреляции, которую можно использовать для определения того, какие функции имеют наибольшую корреляцию с целевой переменной («отток»).

3. Масштабирование данных:

При построении модели машинного обучения важно учитывать масштаб функций в наборе данных. Описательная статистика может быть очень полезна при принятии решения о масштабировании или нормализации данных, что в конечном итоге может повысить точность модели.

Допустим, у нас есть набор данных истории покупок клиентов, и мы хотим предсказать общую сумму, потраченную клиентом. Одной из переменных в этом наборе данных является «потраченная сумма», которая имеет большой диапазон значений. Если мы оставим данные как есть, это может привести к необъективным или неточным результатам, поскольку модель может придавать больший вес некоторым переменным, которые имеют большее значение, чем другие.

В этом случае мы можем использовать описательную статистику, чтобы решить, следует ли масштабировать или нормализовать данные. Один из способов сделать это — вычислить среднее значение и стандартное отклонение переменной «количество потраченных средств». Затем мы можем использовать такие методы, как стандартизация или нормализация, чтобы настроить данные так, чтобы они имели более подходящий масштаб.

Делая это, мы можем повысить точность нашей модели, поскольку она будет основана на данных, которые были должным образом масштабированы и нормализованы. Это может помочь нам сделать более точные прогнозы о том, сколько клиент может потратить, что в конечном итоге может помочь компаниям принимать более обоснованные решения и повышать свою прибыль.

Это создаст новую переменную «рассчитанная сумма потраченных средств», которая стандартизирована с использованием среднего значения 0 и стандартного отклонения 1.

4. Оценка модели:

После того, как мы создали модель машинного обучения, важно оценить ее производительность, чтобы убедиться, что она точна и надежна. Описательная статистика может быть очень полезна в этом процессе, позволяя нам вычислять такие показатели, как средняя абсолютная ошибка (MAE) или среднеквадратическая ошибка (MSE).

Например, допустим, у нас есть набор данных истории покупок клиентов, и мы хотим предсказать общую сумму, потраченную клиентом. Мы можем использовать линейную регрессию для построения модели и рассчитать среднеквадратичную ошибку (MSE) для оценки ее производительности.

Чтобы рассчитать MSE, мы сначала делаем прогнозы на основе модели, а затем сравниваем эти прогнозы с фактическими значениями в наборе данных. Затем вычисляется MSE, взяв среднее значение квадратов разностей между прогнозируемыми значениями и фактическими значениями.

Таким образом, используя описательную статистику, мы можем оценить производительность нашей модели машинного обучения и определить, точно ли она предсказывает общую сумму, потраченную клиентом. Если значение MSE высокое, это может указывать на то, что модель не работает должным образом и ее необходимо каким-либо образом улучшить или скорректировать.

Используя описательную статистику для расчета таких показателей, как MSE, мы можем принимать более обоснованные решения на основе данных и создавать более совершенные модели машинного обучения. В конечном итоге это может помочь нам делать более точные прогнозы и улучшать результаты нашего бизнеса.

В этом примере мы работаем с хорошо известным набором данных, называемым набором данных радужной оболочки. Это классификационный набор данных, состоящий из 150 экземпляров растений ириса, разделенных на три класса по 50 экземпляров в каждом. Наша цель — построить модель, которая сможет правильно классифицировать каждый экземпляр в соответствующий класс.

Для этого мы сначала разделили набор данных на две части: обучающий набор и набор для тестирования. Мы используем разделение 70–30, что означает, что 70% данных будут использоваться для обучения модели, а оставшиеся 30% — для проверки производительности модели.

Затем мы используем логистическую регрессию для обучения модели на обучающем наборе. Это включает в себя подгонку логистической функции к данным, что позволяет нам рассчитать вероятность того, что экземпляр принадлежит каждому классу.

После того, как модель обучена, мы используем ее, чтобы делать прогнозы на тестовом наборе. Мы сравниваем эти прогнозы с фактическими метками в тестовом наборе, чтобы оценить производительность модели. Мы делаем это, вычисляя несколько показателей, включая точность, точность, полноту и оценку F1.

Точность говорит нам о доле случаев, которые были правильно классифицированы, а точность измеряет долю истинно положительных результатов среди всех положительных прогнозов. Отзыв измеряет долю истинно положительных результатов, которые были правильно идентифицированы, а оценка F1 представляет собой сочетание точности и отзыва.

Оценивая модель с помощью этих показателей, мы можем определить, насколько хорошо она работает и нуждается ли она в улучшении.

Заключение:

Таким образом, описательная статистика является фундаментальным аспектом машинного обучения, который позволяет нам лучше понять и обобщить наши данные перед построением модели. Они могут помочь нам выявить выбросы и аномалии, выбрать важные функции, масштабировать и нормализовать данные, а также оценить производительность модели с использованием различных показателей.

Используя описательную статистику, мы можем повысить точность и эффективность наших моделей, а также убедиться, что они не предвзяты и не соответствуют данным. Кроме того, описательную статистику можно использовать на протяжении всего процесса машинного обучения, от очистки и предварительной обработки данных до выбора и оценки модели.

Узнать больше:

Читать о Технологии разработки признаков в машинном обучении

5 лучших методов импутации в машинном обучении

5 лучших полезных инструментов в Power BI

Инструменты анализа данных с использованием Python

5 лучших полезных возможностей программирования на Python