Недавно я обнаружил так много студентов, что новички не знают, что делать? И чего не делать? в связи с проектом по науке о данных. При выполнении операций с наборами данных не отслеживается какой-либо поток процессов. Для любого набора данных перед применением алгоритмов мы должны выполнить четыре задачи или шага, которые необходимо выполнить в любом проекте по науке о данных. В этой части 1 мы сосредоточимся только на ПЛАНИРОВАНИИ и ИССЛЕДОВАНИИ.

Машинное обучение и статистика - это элементы науки о данных. Термин обучение в Машинном обучении означает, что программы зависят от некоторых данных, используемых в качестве обучающего набора, для точной настройки какой-либо модели или алгоритма. параметры. Это включает в себя множество методов, таких как регрессия, наивный байесовский метод или контролируемая кластеризация.

Новичков в машинном обучении часто смущает обилие алгоритмов и методов, которым обучают по таким предметам, как статистическое обучение, интеллектуальный анализ данных, искусственный интеллект, мягкие вычисления и наука о данных.

В первую очередь, эти предметы основываются на вероятности и статистике. В некотором смысле наука о данных подчеркивает важность данных больше, чем алгоритмов обучения. Он установил четко определенный поток процессов, который гласит: сначала подумайте о проведении описательного анализа данных, а затем уже начинайте думать о моделировании. В результате этого предприятия начали применять эту новую методологию, потому что они смогли понять ее.

Прежде чем приступить к выполнению задач с данными, сделайте краткий обзор строительных блоков R. Потому что R - наиболее востребованный язык программирования среди статистиков, аналитиков и ученых.

Есть четыре основных задачи для решения проблемы науки о данных:

  1. План (сбор данных, очистка данных)
  2. Исследуйте (начальный анализ данных, подробное исследование данных)
  3. Сборка (Построение модели данных, Построение информационного продукта)
  4. Оценить (оценка модели, настройка модели)

Теперь мы подробно рассмотрим четыре задачи в следующих разделах ...

  1. План: это также называется подготовкой данных. Планирование сбора данных. Данные в реальном мире могут быть разных типов и форматов. Он может быть структурированным или неструктурированным, читаемым или запутанным, маленьким или большим; однако наличие хорошего плана сбора данных с учетом конечной цели окажется полезным и сэкономит много времени при анализе данных и прогнозном моделировании. Такой план должен включать много информации о типах переменных, форматах данных и источниках данных (например, CSV или TXT, файлы XLS, XML, файлы HTML и т. Д.)

2. Исследуйте. Когда данные готовы, начинается то, что мы называем первичным расследованием или, более формально,

2.1 Первоначальный анализ данных (IDA): IDA проверяет, что наши данные чистые, правильные и complete для дальнейшего исследовательского анализа. Процесс IDA включает в себя подготовку данных с использованием правильных соглашений об именах и типах данных для переменных, проверку отсутствующих и выпадающих значений и объединение данных из нескольких источников для разработки одного связного источника данных для дальнейшего EDA. IDA обычно называют обработкой данных.

Каждый новичок должен и должен выполнить IDA для дальнейшего исследовательского анализа данных (EDA). Есть много мыслительных процессов, связанных с обработкой данных:

2.1.1 Определение первого взгляда. В R есть много полезных функций, которые помогут вам быстро и наглядно получить первое представление о ваших данных.

  1. Функция str (): этот вывод обеспечит полное понимание всего набора данных.
  2. Соглашение об именах: make.names ():. Давайте сделаем имена наших переменных грязными, а затем воспользуемся make.names для их очистки.
  3. Таблица (): шаблон или тенденция:. Предположим, мы хотели увидеть, есть ли какие-либо дубликаты в данных о сотрудниках, или мы хотим найти общие имена среди сотрудников.

2.1.2 Организация нескольких источников данных в один: этот процесс может быть итеративным в том смысле, что что-то нужно добавить или удалить в зависимости от релевантности.

  1. Объединение и соединение dplyr: самая полезная операция при подготовке данных - это возможность объединить или объединить два разных набора данных в один объект.

2.1.3 Очистка данных. Важнейшей частью обработки данных является устранение несоответствий из данных, например, отсутствующих значений, и следование стандартному формату сокращений.

  1. Переменные корректирующего фактора
  2. Работа с НП
  3. Работа с датами и временем

2.1.4 Дополнение дополнительной информацией. Лучшие модели строятся не на основе исходных данных, доступных вначале, а основываются на интеллекте, показанном при выводе новой переменной из существующей.

  1. Производные переменные
  2. Средние значения за n дней
  3. Изменение формы

2.2 Исследовательский анализ данных (EDA): он предоставляет основу для выбора подходящих описательных методов для различных нужд анализа данных. EDA предоставляет как визуальные, так и количественные методы исследования данных. Итак, с нашими данными в наиболее желаемом формате после очистки, мы готовы углубиться в анализ. Разнообразный исследовательский анализ:

2.2.1 Сводная статистика. Сводная статистика может быть полезна для того, чтобы увидеть, насколько данные отличаются от среднего, каково среднее значение переменной, каков диапазон значений и последствия этой статистики. может иметь место при моделировании и предварительной обработке. Все это легко вычислить в R с помощью функции summary ().

2.2.1.1 Квантиль: если мы разделим нашу совокупность данных на четыре равные группы на основе распределения значений конкретной числовой переменной, каждое из трех значений создаст четыре деления называются первым, вторым и третьим квантилями.

2.2.1.2 Среднее значение: это более традиционная статистика для объяснения статистических свойств распределения данных.

2.2.1.3 График частоты

2.2.1.4 Коробчатая диаграмма. Коробчатая диаграмма - это форма визуализации. В процессе исследования данных существует так много визуализаций данных. Мы обсудим это позже во второй части.

2.2.2 Момент. Помимо сводной статистики, у нас есть другие статистические данные, такие как отклонение, стандартное отклонение , асимметрия, эксцесс, ковариация и корреляция. Эта статистика, естественно, заставляет нас искать какое-то распределение в данных.

Таким образом, для каждого набора данных мы должны выполнить описанные выше шаги, чтобы проанализировать данные, и результат будет точным.

В следующей части 2 мы обсудим визуализацию данных при исследовании данных, СОЗДАТЬ и ОЦЕНИТЬ данные.

Заключение

В конце концов, важны не ресурсы, а то, что вы узнали. Специалистам по анализу данных естественно любопытно, какие данные они просматривают. Попробуйте соединить точки. Пополните то, чего не хватает в этой книге, которую вы читаете, другими ресурсами.

Спасибо за прочтение!

Оставляйте комментарии, если у вас есть предложения, как улучшить этот пост.