НАПРАВЛЕНИЕ АНАЛИТИКИ ДАННЫХ

Руководство по внедрению решения

Упрощенное моделирование машинного обучения

Внедрение решения — это итеративный процесс, который включает в себя:

Фаза 1: Сбор данных

Если вам нужна горячая вода, не кипятите Океан.

На этапе постановки задачи с данными вы уже должны определить, какие данные вам потребуются. Не пытайтесь работать со всей базой данных с самого начала.

С другой стороны, иногда вам могут понадобиться дополнительные источники Данных.

Например: данные о конкурентах, данные о новом сегменте рынка.

Фаза 2: Исследование данных

Исследовательский анализ данных (EDA) относится к критическому процессу выполнения первоначальных исследований данных, чтобы обнаружить закономерности, выявить аномалии, проверить гипотезу и проверить предположения с помощью сводной статистики и графических представлений.

Это процесс извлечения ценной информации из больших наборов данных, часто с помощью расширенного
статистического анализа и визуализации. Он включает в себя описательную статистику переменных и проверку корреляций

Почему EDA?

  • Обнаружение ошибок
  • Проверка предположений
  • Предварительный подбор подходящих моделей
  • Определение отношений между независимыми переменными
  • Оценка направления и приблизительного размера взаимосвязей между объяснительными переменными и переменными результата.
  • Определение типов данных
  • Проверить пропущенные значения
  • Группировка данных

Типы EDA

Одномерный EDA

Одномерный анализ — это простейшая форма анализа данных, при которой анализируемые данные содержат только одну переменную. Поскольку это единственная переменная, она не связана с причинами или отношениями. Основная цель одномерного анализа — описать данные и найти существующие в них закономерности. Он бывает двух видов:

Неграфические методы: они включают в себя только расчет сводной статистики.

Графические методы: они обобщают данные в виде диаграмм/рисунков.

Многовариантный EDA

Многомерный анализ данных относится к любому статистическому методу, используемому для анализа данных, полученных из более чем одной переменной. По сути, это моделирует реальность, в которой каждая ситуация, продукт или решение связаны с более чем одной переменной
. Обычно многомерный EDA будет двумерным (учитывая ровно две переменные), но
иногда он включает три или более переменных. Он бывает двух видов:

Неграфические методы: они включают в себя только расчет сводной статистики.

Графические методы: они обобщают данные в виде диаграмм/рисунков.

Примечание. Почти всегда целесообразно выполнить однофакторный EDA для каждого из компонентов многомерного EDA перед выполнением фактического многомерного EDA.

Этап 3. Обработка данных

По мере проведения EDA вы заметите, какие части данных необходимо «очистить», чтобы обеспечить бесперебойную работу анализа. Таким образом, этап обработки данных идет рука об руку с этапом EDA.

Шаг 1: Очистите данные

1)Проверка и преобразование типов данных. Типы данных могут быть в неправильном формате, что затрудняет анализ, например,
столбец, предназначенный для числовых данных, может храниться в виде строки.
2) Отбросить нерелевантные столбцы, то есть столбцы, которые не участвуют в анализе.
3) Используйте функцию .duplicated() для обнаружения повторяющихся значений и удаления их.
4) Несогласованные записи данных: Несогласованные записи данных являются представлением одного и того же значения разными
способами. Это может быть связано с пробелами, разными регистрами букв, знаками препинания и т. д.
5) Манипуляции со строками. Манипуляции со строками — важный способ получения числовых данных из строк.

Шаг 2. Обработайте отсутствующие данные

1) Удалите строки или столбцы с пропущенными значениями или значениями Nan.
2) Заполните пропущенные значения или значения Nan вручную.
3) Вменение — это метод заполнения пропущенных значений оценочными значениями. Цель состоит в том, чтобы использовать известные отношения, которые могут быть идентифицированы в действительных значениях набора данных, чтобы помочь в оценке отсутствующих значений.
Типы вменения: один из наиболее часто используемых способов. Он заключается в замене отсутствующих данных для данного атрибута средним значением или медианой (количественный атрибут) или модой (качественный
атрибут) всех известных значений этой переменной.
• Замена: импутация выполняется путем замены исходное значение с другим значением.
• Горячая колода: случайно выбранное значение от человека в выборке, который имеет аналогичные значения по
другим переменным.
• Холодная колода: систематически выбранное значение от человека, который имеет аналогичные значения других
переменных.
• Вменение регрессии: прогнозируемое значение получается путем регрессии отсутствующей переменной в
другие переменные.
• Вменение стохастической регрессии: Прогнозируемое значение регрессии плюс случайное остаточное
значение.
• Интерполяция и экстраполяция: расчетное значение из других наблюдений того же
человека. Обычно это работает только в лонгитюдных данных.

Шаг 3: Разделение данных

Разделить данные, в идеале в соотношении 60:20:20, следующим образом:
Обучить
Тестировать
Подтвердить

Шаг 4. Обработка выбросов
Выброс — это точка данных, которая значительно отличается от других наблюдений из-за изменчивости измерения или может указывать на экспериментальную ошибку.
1) Удалите выбросы.
2) Преобразуйте переменные, чтобы исключить выбросы. Естественный логарифм значения уменьшает колебания, вызванные
экстремальными значениями.
3) Используйте импутацию только для искусственных выбросов. Вменение среднего/моды/медианы является одним из наиболее часто
используемых методов.

Этап 5. Интеллектуальный анализ данных

Интеллектуальный анализ данных — это процесс превращения необработанных данных в полезную информацию. Выискивая закономерности в больших массивах данных, вы можете получить много ценной информации. Для проведения интеллектуального анализа данных используйте популярный метод, известный как CRISP-DM.

Шаг 1: Понимание бизнеса
Понимание целей и требований проекта, затем преобразование этих знаний в определение проблемы интеллектуального анализа данных
и предварительный план. Это уже было рассмотрено на этапе «Постановка задачи
Определение».

Шаг 2. Понимание данных
Начинается со сбора первоначальных данных и переходит к действиям, направленным на ознакомление с данными. Об этом
рассказывается в разделе "Этап обработки данных".

Этап 3. Подготовка данных
Этап подготовки данных охватывает подготовку данных для создания окончательного набора данных из исходных необработанных
данных. Это рассматривается в разделе «Этап обработки данных».

Шаг 4. Моделирование
Здесь мы выбираем модель глубокого обучения или машинного обучения, которая лучше всего соответствует нашим потребностям.

Шаг 5. Оценка
После того, как модели построены, их необходимо протестировать, чтобы убедиться, что они обобщают невидимые данные
и не являются недостаточно или переоснащенными.

Недостаточное соответствие.
Недостаточное соответствие – это ошибка моделирования, возникающая, когда функция недостаточно хорошо соответствует точкам данных. Это
результат простой модели с недостаточным количеством обучающих точек. Недостаточно подобранная модель
неверна, потому что тенденция не отражает реальности данных.

Как преодолеть несоответствие:
• Получите больше обучающих данных.
• Увеличьте размер или количество параметров в модели.
• Увеличьте сложность или тип модели.
• Увеличение времени обучения до минимизации функции стоимости в модели.

Переобучение.
Переобучение – это ошибка моделирования, возникающая, когда функция слишком близко подходит к ограниченному набору точек данных.
Это результат слишком сложной модели с чрезмерным количеством обучающих точек. Модель с переоснащением
является неточной, поскольку эффективно запоминает существующие точки данных.

Как преодолеть переобучение:
• Перекрестная проверка.

Это делается путем разделения вашего набора данных на «тестовые» данные и данные «обучения». Постройте модель, используя набор "train".
Набор "test" используется для проверки во времени. Таким образом, вы узнаете, каков ожидаемый результат, и сможете
легко оценить точность вашей модели.
• Регуляризация
Это форма регрессии, которая упорядочивает или уменьшает коэффициент. оценки к нулю. Этот метод
препятствует изучению более сложной модели.
• Ранняя остановка
При обучении учащегося итеративным методом вы останавливаете процесс обучения перед последней итерацией. Это
предотвращает запоминание моделью набора данных.
• Сокращение
Этот метод применяется к деревьям решений.
Предварительное сокращение: прекратите «расти» дерево раньше, чем оно идеально классифицирует обучающий набор.
Пост-обрезка: позволяет дереву «вырасти», чтобы идеально классифицировать обучающий набор, а затем выполнить обрезку дерева.
• Исключение
Это метод, при котором случайно выбранные нейроны игнорируются во время обучения.

Шаг 6. Развертывание
Это означает развертывание кодового представления модели в операционной системе для оценки или категоризации новых
невидимых данных по мере их появления и создания механизма для использования этой новой информации в решении. исходной
проблемы.

Фаза 5: прототипирование

Шаг 1. Здесь вы начинаете создавать базовую версию выбранных моделей, а затем сравниваете
производительность каждой из них.
Шаг 2. Теперь, когда вы сузили выборку до нескольких наиболее эффективных моделей, отлично настройте их и
сравните еще раз.
Шаг 3: Продолжайте шаг 2, пока не создадите нужную модель.

Рассказывание историй

Последний шаг в исследовательском проекте по науке о данных — сообщить результаты соответствующим заинтересованным сторонам.
На этом этапе специалист по данным или исследовательская группа должны сообщить о действиях, которые следует предпринять
на основе полученных результатов. объединены в отчет или презентацию. В идеале, все исследовательские проекты
должны заканчиваться более глубоким пониманием, чтобы оправдать затраты времени на исследования.
Шаг 1. Сосредоточьтесь на объяснительном анализе, а не на исследовательском. Объяснительный анализ представляет важный
вывод или рекомендацию, а затем объясняет процесс, который был предпринят для их получения. Выводы, которые просто
интересны и бесполезны, сохраняются для подробного описания проекта или вообще не включаются.
Шаг 2. Выберите график, который лучше всего отражает ваши выводы
Начните визуализация с записью того, что нужно сообщить, а затем создать именно это. Зачастую проще
создать набор диаграмм и графиков, а затем извлечь ценную информацию и создать историю на основе того, что было создано.

Что такое теория цвета?

Теория цвета включает в себя множество определений, концепций и дизайнерских приложений. Однако
существуют три основные категории теории цвета, которые являются логичными и полезными: цветовой круг, цветовая
гармония и контекст использования цветов.
Теории цвета создают логическую структуру. для цвета.

Как использовать теорию цвета для графиков

• Используйте фирменные цвета для маркетинговых материалов или презентаций. Использование цветовой схемы компании
помогает вам соответствовать вашему бренду и обеспечивает согласованность ваших сообщений. Это также помогает с узнаваемостью торговой марки
.
• Градиентные цвета отлично подходят для демонстрации узора. Рассмотрите возможность отображения наиболее важных значений
с помощью полос и используйте цвета для отображения только категорий.
• Если вам нужно больше семи цветов на диаграмме, попробуйте использовать другой тип диаграммы или сгруппируйте
категории вместе.
• Рассмотрите возможность использования одного цвета для одних и тех же переменных. Если вы создаете серию диаграмм,
в которых используется одна и та же переменная, следите за тем, чтобы цвет каждой переменной был одинаковым на всех диаграммах.
• Обязательно объясните читателям, что кодируют ваши цвета. Каждый элемент вашего графика должен быть
объяснен. Что означает высота столбца? Что означает размер маркеров на карте
?

• Использование серого цвета для менее важных элементов на диаграмме еще больше выделяет цвета выделения (которые следует
зарезервировать для наиболее важных точек данных). Серый цвет также удобен для
общих контекстных данных и менее важных аннотаций.
• Убедитесь, что ваши контрасты достаточно высоки. В дополнение к высокому коэффициенту контрастности избегайте
дополнительных оттенков (например, красного и зеленого, оранжевого и синего) и ярких цветов для фона.
• Семантическая цветовая ассоциация. При выборе цветовой палитры учитывайте их значение в культуре
вашей целевой аудитории. Если возможно, используйте цвета, которые читатели будут ассоциировать с вашими данными. Например: Красный
означает опасность.
• Используйте светлые цвета для низких значений и темные цвета для высоких значений. При использовании цветовых градиентов убедитесь,
что яркие цвета соответствуют низким значениям, а темные — высоким.
• Не используйте цветовую палитру градиента для категорий и наоборот. Зрители будут ассоциировать
темные цвета с «более/высоким», а яркие цвета с «менее/низким», такая цветовая палитра будет подразумевать ранжирование
ваших категорий. Если диаграмма слишком красочная, рассмотрите другой тип диаграммы для ваших данных.
• Рассмотрите возможность использования двух оттенков для градиента, а не только одного.
• Рассмотрите возможность использования расходящихся цветовых градиентов. Если вы хотите подчеркнуть, как переменная
отклоняется от базовой линии, вы можете рассмотреть возможность использования расходящейся палитры.
• Использование различной яркости в ваших градиентах и ​​цветовых палитрах имеет большое преимущество, которое читатели
> с дефицитом цветового зрения все равно сможет различать цвета.

Старайтесь не использовать слишком много цвета в своих визуальных эффектах.

Свяжитесь со мной:

Facebook, Twitter, Quora, Youtube и Linkedin.