Заявление об ограничении ответственности: Описанные шаги могут дать вам общее представление о построении модели, но можно выполнить гораздо более подробную информацию в соответствии с имеющимися данными. Ожидается, что весь сбор данных, формулировка гипотез, отображение проблем и подход к решению будут выполнены. Пожалуйста, подождите, это длинная статья.

Это могут быть контролируемые или неконтролируемые алгоритмы. Для обоих методов обучения можно выполнить некоторые стандартные шаги моделирования общим эвристическим путем. Прежде чем приступить к этапам моделирования, давайте поговорим о контролируемых и неконтролируемых методах обучения. Методы контролируемого обучения будут иметь несколько предопределенных исторически меток, на основе которых строится модель и делаются прогнозы. В то время как в обучении без учителя не существует заранее определенных ярлыков. После моделирования мы идентифицируем метки, связанные с данными. Методы обучения с учителем включают алгоритмы регрессии и классификации, а обучение без учителя включает алгоритмы кластеризации. Понимая разницу между контролируемым и неконтролируемым обучением, давайте перейдем к этапам моделирования:

  • Проверка данных и понимание данных
  • Изменения данных (если есть)
  • Исследовательский анализ данных
  • Предварительная обработка данных
  • Моделирование данных
  • Оценка модели
  • Проверка модели
  • Анализ устойчивости модели
  • Модель управления

По общей эвристике вышеупомянутые шаги могут быть выполнены при выполнении контролируемого моделирования. Теперь сосредоточимся на каждом из этапов:

Проверка данных и понимание данных: перед выполнением любого метода моделирования необходимо сначала понять данные. На этом этапе мы считываем данные в фреймы данных и смотрим на их атрибуты, чтобы получить общее представление о данных, таких как форма, типы данных атрибутов, статистическая сводка имеющихся числовых столбцов, информация о данных, значениях и столбцах, присутствующих в данные. Зная их, мы можем получить представление о категориальных и числовых столбцах, присутствующих в данных. После проверки данных и понимания данных мы переходим к следующему шагу.

Изменение данных: на этом этапе мы выполняем изменения типа данных столбцов, если какой-либо столбец был ошибочно назначен другому типу данных. Кроме того, можно выполнить некоторую стандартизацию данных, например, преобразование значений в столбце в одну единицу, удаление допустимых значений и т. Д.

Исследовательский анализ данных: также известен как EDA. Этот шаг занимает больше времени, поскольку мы выполняем очистку данных, выявление и обработку выбросов, одномерный и двумерный анализ. После выполнения EDA мы узнаем взаимодействие между атрибутами или столбцами, а также изменение распределения данных в столбце. Следовательно, это необходимый и наиболее важный шаг, который необходимо выполнить перед подготовкой данных для моделирования.

Начиная с очистки данных, на этом этапе мы проверяем недостающие значения и перекос в столбцах. При очистке данных каждый открыт для исследования всех его измерений, чтобы выполнить точный процесс очистки. Чем лучше выполняется процесс очистки, тем лучше будут результаты, полученные с помощью модели. Некоторые из методов обработки пропущенных значений: пропущенные значения могут быть заменены преобразованием WOE столбца ИЛИ Их можно условно вычислить с помощью статистического анализа, так что в столбце не будет создаваться асимметрия ИЛИ Если отсутствующие значения в столбце больше, чем этот конкретный столбец можно отбросить ИЛИ Если доступен какой-либо дополнительный источник данных для подстановки правильных пропущенных значений, то это следует сделать. Помимо этих методов обработки пропущенных значений, существуют некоторые методы обработки более высокого уровня, такие как MCMC (цепь Маркова Монте-Карло) и методы максимизации ожиданий. При работе с отсутствующими значениями необходимо помнить одну вещь: после определения отсутствующих значений необходимо понять причину отсутствующих значений, например, возникли ли отсутствующие значения как MAR (Missing At Random), MNAR (Missing Not At Random) затем, соответственно, методы вменения, которые должны быть выполнены. Если категориальным столбцам вменено значение Mode, всегда лучше проверить наличие вариации по классам столбца, чтобы увидеть, создается ли в столбце асимметрия или нет. Кроме того, существуют некоторые столбцы, в которых нет пропущенных значений, но они имеют перекос. Чтобы обработать столбцы, имеющие асимметрию, можно использовать некоторые статистические методы, такие как логарифмическое преобразование, преобразование квадратного корня ИЛИ преобразование Бокс-Кокса. При использовании преобразований переменных коэффициент перекоса значительно уменьшится. Но при прогнозировании следует помнить, что нужно возвращаться к тем же значениям столбца. Асимметрия в переменной необходимо учитывать при использовании переменной для моделирования, так как это приведет к отклонению прогнозов, сделанных при использовании искаженных переменных в данных.

После того, как пропущенные значения и перекос в столбцах устранены, мы переходим к анализу выбросов. При анализе выбросов мы проверяем выбросы в числовых столбцах, используя идентификацию прямоугольной диаграммы, ИЛИ путем анализа квантильной вариации переменной, ИЛИ путем идентификации с использованием статистических методов, таких как анализ Z-баллов и методы IQR. После выявления выбросов некоторые из возможных методов обработки: выбросы могут рассматриваться как пропущенные значения и могут быть вменены обработкой пропущенных значений ИЛИ Крайние выбросы могут быть ограничены ближайшим процентилем ИЛИ Если такие экстремальные выбросы не нужны для вашего анализа, их можно отбросить. При обработке выбросов следует учитывать как количественный, так и качественный анализ.

Переходим к одномерному и двумерному анализу. Начнем с одномерного анализа. Термин «Одномерный» означает анализ одной-единственной переменной. Выполнив одномерный анализ, мы узнаем об изменении данных в переменной. Построив графики распределения, мы можем понять изменение переменной. Как для категориальных, так и для числовых переменных выполняется одномерный анализ. Затем мы выполняем двумерный анализ. Термин «двумерный» означает анализ одной переменной по отношению к другой переменной. Поступая так, мы поймем взаимодействие между переменными. Возможные варианты двумерного анализа: от числового к числовому, от категориального к числовому и от категориального к категориальному. Кроме того, в двумерном анализе определяются парные корреляции, чтобы проверить, какие переменные сильно коррелированы друг с другом. Среди таких сильно коррелированных пар одну из переменных можно опустить, чтобы избежать корреляции между переменными-предикторами. Использование одних только парных корреляций не поможет в идентификации мультиколлинеарности, поскольку одна из переменных может коррелировать более чем с одной переменной. Чтобы решить эту проблему, мы воспользуемся оценками VIF, чтобы исключить переменные, имеющие высокую мультиколлинеарность во время моделирования. Перед выполнением парных корреляций мы сначала создаем фиктивные переменные для категориальных переменных, а затем проверяем парные корреляции, чтобы удалить сильно коррелированные пары.

Шаги к анализу исследовательских данных одинаковы как для контролируемого, так и для неконтролируемого обучения.

Завершив долгий процесс выполнения задачи EDA, мы переходим к предварительной обработке данных. В предварительной обработке данных мы подготавливаем данные, необходимые для моделирования. При этом выполняются следующие шаги: создание фиктивных переменных, разделение данных на наборы данных Train-Test, масштабирование данных поезда. Мы начинаем с создания фиктивной переменной, в которой категориальные переменные, имеющие n классов уровня, были закодированы с n-1 уровнями фиктивных переменных. Как упоминалось ранее, парные корреляции могут быть найдены после создания фиктивных переменных. Построив тепловую карту, мы можем узнать парные корреляции между числовыми переменными данных. Используя его, мы можем отбросить одну из переменных среди сильно коррелированных пар. Это действие по удалению одной переменной из числа сильно коррелированных переменных ограничивается контролируемыми методами обучения. В методах обучения без учителя мы просто масштабируем переменные, выполняем некоторые функции, а затем выполняем моделирование. Затем мы переходим к разделению данных Train-Test в некотором соотношении 70:30 или 80:20. Затем мы масштабируем набор данных Train, используя некоторые методы масштабирования, такие как стандартизация или нормализация, в соответствии с требованиями. Набор тестовых данных может быть преобразован во время прогнозирования с помощью объекта масштабирования, который определяется во время масштабирования набора данных поезда.

После предварительной обработки данных в соответствии с требованиями моделирования мы переходим к моделированию. На этапе моделирования есть некоторые моменты, связанные с методами обучения с учителем, а некоторые - с методами обучения без учителя. В контролируемом моделировании мы выполняем моделирование в два этапа при наличии большого количества переменных функций: сначала мы выполняем автоматический выбор функций, а затем ручное исключение функций с использованием значений P и значений VIF для функций. При наличии некоторого ограниченного количества переменных мы можем выполнить один из следующих методов: прямой выбор, обратный выбор или пошаговый выбор с использованием некоторых критериев, таких как AIC (информационный критерий Акаике) и т. Д. В реальном времени у нас будет много переменных-предикторов. Одним из простейших процессов автоматического выбора характеристик является RFE (рекурсивное исключение признаков), которое выдает число N лучших функций, как упомянуто. Первые N характеристик выбираются на основе значений их коэффициентов. После использования функций Top N мы можем дополнительно выполнить удаление функций вручную, чтобы получить модель освещения, свободную от проблем с переоснащением. При моделировании всегда существует компромисс между смещением и дисперсией, поэтому нам необходимо построить модель баланса, которая управляет между смещением и дисперсией. На каждом этапе ручного исключения признаков мы отслеживаем любую метрику модели, например квадрат R или скорректированный квадрат R, при выполнении алгоритмов регрессии и точности в случае алгоритмов классификации. Причина для отслеживания метрик модели, чтобы видеть, что мы не теряем никаких пояснительных функций во время ручного исключения функций. Сделав это, как только мы дойдем до окончательной стабильной модели, в которой все коэффициенты значимы, а показатели нормальные, мы сможем перейти к оценке модели.

После получения окончательной стабильной модели мы выполняем оценку модели, используя некоторые метрики модели, которые определяют степень соответствия модели. Эти метрики будут оцениваться как в наборах данных для обучения, так и в тестах. При оценке модели мы проверяем набор данных Train, тогда как при проверке модели мы проверяем набор проверки или набор тестов. Опять же, оценка модели зависит от типа алгоритма, который мы выполняем. При выполнении техники регрессии мы проверяем квадрат R, скорректированный квадрат R, статистику F, значение P статистики F, чтобы определить степень соответствия и значимость модели в целом. В случае классификации мы выполняем оценку модели с учетом либо представления «Специфичность чувствительности», либо представления «Точность-отзыв», поскольку одной метрики «Точность» будет недостаточно для определения степени соответствия модели, поскольку точность учитывает как положительные, так и отрицательные стороны, но в основном в соответствии с бизнес-требованиям нам может потребоваться больше чувствительности или больше специфичности. То же самое и для представлений «Точность» и «Напоминание». Кроме того, в Классификации мы можем построить график ROC (Рабочие характеристики приемника), с помощью которого мы можем узнать, стабильна ли модель или нет. Кривая демонстрирует разницу между TPR и FPR. Хорошая модель классификации должна иметь высокий TPR и низкий FPR, а кривая должна почти касаться оси Y (ось TPR), так что AOC (площадь под кривой) почти близка к 1 единице. Чтобы определить, является ли модель стабильной по кривой ROC, мы проверяем значение AOC. Чем выше значение AOC близко к 1.0, тем лучше модель. В случае неконтролируемого обучения, такого как кластеризация, не существует каких-либо конкретных показателей оценки модели, просто сформированные кластеры должны быть интерпретируемыми и отличаться друг от друга.

После завершения оценки модели мы переходим к проверке модели. Методы проверки модели также различаются между алгоритмами контролируемого и неконтролируемого обучения. В случае алгоритмов контролируемого обучения - некоторые методы проверки, с помощью которых модель может быть лучше проверена. Вот некоторые из методов проверки: проверка образца, перекрестная проверка K, проверка вне времени. Выполнив один из этих методов проверки, мы можем делать прогнозы для набора тестовых данных, используя модель, а затем оценивать выходные данные модели на наборе тестовых данных с использованием показателей оценки. Таким образом мы узнаем, способна ли модель определять общие закономерности в наборе данных Train или переобучена или недостаточно в наборе данных Train. Если метрики оценки модели находятся в том же диапазоне метрик оценки модели набора данных Train, то можно сказать, что модель захватила только общие закономерности в данных и, таким образом, хорошо работает и с набором данных Test. В то время как в алгоритмах неконтролируемого обучения сделанные прогнозы и кластеры, сформированные на наборе тестовых данных, должны быть интерпретируемыми и отличными. Помимо этого, в методах неконтролируемого обучения нет особых методов проверки модели.

После завершения проверки модели мы переходим к анализу стабильности модели. Этот анализ стабильности модели более специфичен для методов обучения с учителем. Иногда стабильность модели намного важнее, чем предсказательная сила модели, поскольку мы используем модель для принятия критических бизнес-решений, поэтому мы ожидаем, что модель будет стабильной. В разделе «Стабильность модели» мы проверяем стабильность переменных и стабильность производительности. Считается, что модель имеет стабильность производительности, если прогнозирующая способность модели как на обучающем, так и на тестовом наборе данных достаточно близка, тогда говорят, что модель имеет стабильность производительности. Чтобы проверить стабильность переменной, ее можно разделить на категории: стабильность распределения переменных и стабильность с прогнозированием переменных. Считается, что модель имеет стабильность распределения переменных, если распределение переменных практически одинаково как для обучающего, так и для тестового набора данных. Чтобы определить, одинаково ли распределены переменные или нет, мы измеряем PSI (индекс стабильности населения) как для обучающих, так и для тестовых наборов данных. Чтобы проверить стабильность прогнозирования переменных, мы анализируем значения WOE переменных в наборах данных для обучения и тестирования. Причина для проверки значений WOE по группам переменных заключается в том, что WOE фиксирует предсказательный характер переменной. Чтобы количественно оценить это, мы проверяем, связано ли значение PSI со значениями WOE.

После проверки стабильности модели мы переходим к управлению моделью или отслеживанию модели. Это действие выполняется, когда Модель находится в производстве. Доступны различные автоматизированные инструменты для отслеживания производительности модели на основе алгоритма модели. Эта модель управления варьируется в соответствии со стандартами организации и может быть изучена более подробно. В общем, в отслеживании моделей мы отслеживаем всевозможные метрики модели, прогнозы, сделанные моделью на невидимых наборах данных и т. Д. Во время процесса, если требуется какая-либо повторная калибровка, она должна быть выполнена. Если прогнозы модели отклоняются более чем на 1 мгновение, то существует большая необходимость в повторном построении модели.

Это некоторые из шагов, которым можно следовать в общих чертах при выполнении любого из методов моделирования.

ЛИТЕРАТУРА:
Платформа обучения UpGrad.