Недавно я обнаружил так много студентов, что новички не знают, что делать? И чего не делать? в связи с проектом по науке о данных. При выполнении операций с наборами данных не отслеживается какой-либо поток процессов. Для любого набора данных перед применением алгоритмов мы должны выполнить четыре задачи или шага, которые необходимо выполнить в любом проекте по науке о данных. В этой части 1 мы сосредоточимся только на ПЛАНИРОВАНИИ и ИССЛЕДОВАНИИ.
Машинное обучение и статистика - это элементы науки о данных. Термин обучение в Машинном обучении означает, что программы зависят от некоторых данных, используемых в качестве обучающего набора, для точной настройки какой-либо модели или алгоритма. параметры. Это включает в себя множество методов, таких как регрессия, наивный байесовский метод или контролируемая кластеризация.
Новичков в машинном обучении часто смущает обилие алгоритмов и методов, которым обучают по таким предметам, как статистическое обучение, интеллектуальный анализ данных, искусственный интеллект, мягкие вычисления и наука о данных.
В первую очередь, эти предметы основываются на вероятности и статистике. В некотором смысле наука о данных подчеркивает важность данных больше, чем алгоритмов обучения. Он установил четко определенный поток процессов, который гласит: сначала подумайте о проведении описательного анализа данных, а затем уже начинайте думать о моделировании. В результате этого предприятия начали применять эту новую методологию, потому что они смогли понять ее.
Прежде чем приступить к выполнению задач с данными, сделайте краткий обзор строительных блоков R. Потому что R - наиболее востребованный язык программирования среди статистиков, аналитиков и ученых.
Есть четыре основных задачи для решения проблемы науки о данных:
- План (сбор данных, очистка данных)
- Исследуйте (начальный анализ данных, подробное исследование данных)
- Сборка (Построение модели данных, Построение информационного продукта)
- Оценить (оценка модели, настройка модели)
Теперь мы подробно рассмотрим четыре задачи в следующих разделах ...
- План: это также называется подготовкой данных. Планирование сбора данных. Данные в реальном мире могут быть разных типов и форматов. Он может быть структурированным или неструктурированным, читаемым или запутанным, маленьким или большим; однако наличие хорошего плана сбора данных с учетом конечной цели окажется полезным и сэкономит много времени при анализе данных и прогнозном моделировании. Такой план должен включать много информации о типах переменных, форматах данных и источниках данных (например, CSV или TXT, файлы XLS, XML, файлы HTML и т. Д.)
2. Исследуйте. Когда данные готовы, начинается то, что мы называем первичным расследованием или, более формально,
2.1 Первоначальный анализ данных (IDA): IDA проверяет, что наши данные чистые, правильные и complete для дальнейшего исследовательского анализа. Процесс IDA включает в себя подготовку данных с использованием правильных соглашений об именах и типах данных для переменных, проверку отсутствующих и выпадающих значений и объединение данных из нескольких источников для разработки одного связного источника данных для дальнейшего EDA. IDA обычно называют обработкой данных.
Каждый новичок должен и должен выполнить IDA для дальнейшего исследовательского анализа данных (EDA). Есть много мыслительных процессов, связанных с обработкой данных:
2.1.1 Определение первого взгляда. В R есть много полезных функций, которые помогут вам быстро и наглядно получить первое представление о ваших данных.
- Функция str (): этот вывод обеспечит полное понимание всего набора данных.
- Соглашение об именах: make.names ():. Давайте сделаем имена наших переменных грязными, а затем воспользуемся make.names для их очистки.
- Таблица (): шаблон или тенденция:. Предположим, мы хотели увидеть, есть ли какие-либо дубликаты в данных о сотрудниках, или мы хотим найти общие имена среди сотрудников.
2.1.2 Организация нескольких источников данных в один: этот процесс может быть итеративным в том смысле, что что-то нужно добавить или удалить в зависимости от релевантности.
- Объединение и соединение dplyr: самая полезная операция при подготовке данных - это возможность объединить или объединить два разных набора данных в один объект.
2.1.3 Очистка данных. Важнейшей частью обработки данных является устранение несоответствий из данных, например, отсутствующих значений, и следование стандартному формату сокращений.
- Переменные корректирующего фактора
- Работа с НП
- Работа с датами и временем
2.1.4 Дополнение дополнительной информацией. Лучшие модели строятся не на основе исходных данных, доступных вначале, а основываются на интеллекте, показанном при выводе новой переменной из существующей.
- Производные переменные
- Средние значения за n дней
- Изменение формы
2.2 Исследовательский анализ данных (EDA): он предоставляет основу для выбора подходящих описательных методов для различных нужд анализа данных. EDA предоставляет как визуальные, так и количественные методы исследования данных. Итак, с нашими данными в наиболее желаемом формате после очистки, мы готовы углубиться в анализ. Разнообразный исследовательский анализ:
2.2.1 Сводная статистика. Сводная статистика может быть полезна для того, чтобы увидеть, насколько данные отличаются от среднего, каково среднее значение переменной, каков диапазон значений и последствия этой статистики. может иметь место при моделировании и предварительной обработке. Все это легко вычислить в R с помощью функции summary ().
2.2.1.1 Квантиль: если мы разделим нашу совокупность данных на четыре равные группы на основе распределения значений конкретной числовой переменной, каждое из трех значений создаст четыре деления называются первым, вторым и третьим квантилями.
2.2.1.2 Среднее значение: это более традиционная статистика для объяснения статистических свойств распределения данных.
2.2.1.3 График частоты
2.2.1.4 Коробчатая диаграмма. Коробчатая диаграмма - это форма визуализации. В процессе исследования данных существует так много визуализаций данных. Мы обсудим это позже во второй части.
2.2.2 Момент. Помимо сводной статистики, у нас есть другие статистические данные, такие как отклонение, стандартное отклонение , асимметрия, эксцесс, ковариация и корреляция. Эта статистика, естественно, заставляет нас искать какое-то распределение в данных.
Таким образом, для каждого набора данных мы должны выполнить описанные выше шаги, чтобы проанализировать данные, и результат будет точным.
В следующей части 2 мы обсудим визуализацию данных при исследовании данных, СОЗДАТЬ и ОЦЕНИТЬ данные.
Заключение
В конце концов, важны не ресурсы, а то, что вы узнали. Специалистам по анализу данных естественно любопытно, какие данные они просматривают. Попробуйте соединить точки. Пополните то, чего не хватает в этой книге, которую вы читаете, другими ресурсами.
Спасибо за прочтение!
Оставляйте комментарии, если у вас есть предложения, как улучшить этот пост.