"Начиная"

Пейзаж науки о данных

Попытка предоставить структуру и ориентиры в сложной области

  1. Введение

Данные - это новая нефть в 21 веке, в век информации.

Это выражение инкапсулирует тот факт, что извлечение информации из данных стало важным для большинства предприятий. Эта тенденция является основной движущей силой быстрого роста науки о данных.

Тем не менее, все еще существует большая неопределенность в отношении отдельных дисциплин и жаргона, применяемого в этой области. Решение вопросов, связанных с наукой о данных, может быть сложной задачей, особенно для руководителей нетехнического профиля. В этой краткой статье делается попытка пролить свет на область науки о данных, ее дисциплины, а также предоставить некоторую структуру и ориентиры.

2. Пейзаж науки о данных

Наука о данных является частью компьютерных наук [1]. Он включает в себя дисциплины i) аналитику, ii) статистику и iii) машинное обучение.

2.1. Аналитика

Аналитика генерирует аналитические данные на основе данных с помощью простого представления, обработки, вычисления или визуализации данных. В контексте науки о данных это также иногда называют исследовательской аналитикой данных. Это часто служит цели ознакомления с предметом изучения и получения некоторых первоначальных подсказок для дальнейшего анализа. С этой целью аналитика часто используется для формулирования соответствующих вопросов для проекта по науке о данных.

Ограничение аналитики состоит в том, что она не обязательно дает убедительные доказательства причинно-следственной связи. Кроме того, процесс аналитики обычно представляет собой ручной и трудоемкий процесс, выполняемый человеком с ограниченными возможностями для автоматизации. В современном деловом мире многие корпорации не выходят за рамки описательной аналитики, хотя более сложные аналитические дисциплины могут предложить гораздо большую ценность, например, те, что представлены в аналитическом эскалаторе ценности.

2.2. Статистика

Во многих случаях аналитики может быть достаточно для решения данной проблемы. В других случаях проблема более сложна и требует более изощренного подхода, чтобы дать ответ, особенно если в условиях неопределенности необходимо принять высокоуровневое решение. Вот тут-то и вступает в игру статистика. Статистика обеспечивает методологический подход к ответам на вопросы аналитиков с определенной степенью уверенности.

Аналитики помогают получить хорошие вопросы, а статистики - хорошие ответы. Статистики привносят строгость в суть дела .

Иногда для получения необходимой информации достаточно простой описательной статистики. Однако в других случаях требуется более сложная логическая статистика - такая как регрессионный анализ - для выявления причинно-следственных связей для определенного явления [2]. Ограничение статистики состоит в том, что она традиционно проводится с помощью программных пакетов, таких как SPSS и SAS, которые требуют отдельного расчета для конкретной проблемы со стороны статистика или обученного специалиста. Степень автоматизации довольно ограничена.

2.3. Машинное обучение

Искусственный интеллект относится к широкой идее о том, что машины могут выполнять задачи, обычно требующие человеческого интеллекта, такие как визуальное восприятие, распознавание речи, принятие решений и перевод между языками. В контексте науки о данных машинное обучение можно рассматривать как подполе искусственного интеллекта, которая связана с принятием решений. Фактически, в его наиболее важной форме машинное обучение - это принятие масштабных решений. Машинное обучение - это область изучения компьютерных алгоритмов, которые позволяют компьютерным программам выявлять и извлекать закономерности из данных. Таким образом, общей целью алгоритмов машинного обучения является обобщение данных и обучение на их основе для выполнения определенных задач. [3].

В традиционном программировании входные данные применяются к модели и компьютеру для достижения желаемого результата. В машинном обучении алгоритм применяется к входным и выходным данным, чтобы определить наиболее подходящую модель. Таким образом, машинное обучение может быть дополнением к традиционному программированию, поскольку оно может предоставить полезную модель для объяснения явления.

2.4. Машинное обучение против интеллектуального анализа данных

Термины машинное обучение и интеллектуальный анализ данных тесно связаны и часто используются как синонимы. Интеллектуальный анализ данных - это концепция, предшествующая нынешней области машинного обучения. Идея интеллектуального анализа данных - также называемая в академическом контексте «обнаружением знаний в базах данных» (KDD) - возникла в конце 1980-х - начале 1990-х годов, когда стала очевидной потребность в анализе больших наборов данных [3]. По сути, интеллектуальный анализ данных относится к структурированному способу извлечения информации из данных, основанному на алгоритмах машинного обучения. Основное отличие заключается в том, что интеллектуальный анализ данных - это скорее ручной процесс, требующий вмешательства человека и принятия решений, в то время как машинное обучение - помимо начальной настройки и тонкой настройки - выполняется в значительной степени независимо [4].

2.5. Организация мира машинного обучения

Мир машинного обучения очень сложен и поначалу труден для понимания. Степень контроля, а также тип проблемы машинного обучения считаются особенно полезными для обеспечения некоторой структуры.

2.5.1. Обучение с учителем и без учителя

Большинство алгоритмов машинного обучения можно разделить на контролируемое и неконтролируемое обучение. Основное различие между этими типами машинного обучения заключается в том, что контролируемое обучение проводится на данных, которые включают как входные, так и выходные данные. Его также часто называют «помеченными данными», где метка является целевым атрибутом. Таким образом, алгоритм может проверить свою модель путем проверки правильного выходного значения. Обычно алгоритмы машинного обучения с учителем представляют собой регрессионный и классификационный анализ. И наоборот, при неконтролируемом машинном обучении набор данных не включает целевой атрибут. Таким образом, данные не помечены. Наиболее распространенным типом обучения без учителя является кластерный анализ [3].

Помимо основных потоков контролируемых и неконтролируемых алгоритмов машинного обучения, существуют дополнительные вариации, такие как полу-контролируемые алгоритмы и алгоритмы обучения с подкреплением. При полууправляемом обучении небольшой объем помеченных данных используется для поддержки большего набора немаркированных данных. Обучение с подкреплением обучает алгоритм с системой вознаграждения, обеспечивая обратную связь, когда агент искусственного интеллекта выполняет наилучшее действие в конкретной ситуации [5].

2.5.2. Типы проблем машинного обучения - регрессия, классификация и кластеризация

Чтобы структурировать область машинного обучения, огромное количество алгоритмов машинного обучения часто группируются по сходству с точки зрения их функции (как они работают), например методы на основе деревьев и нейронных сетей. Учитывая большое количество различных алгоритмов, этот подход довольно сложен. Вместо этого считается более полезным сгруппировать алгоритмы машинного обучения по типу проблемы, которую они должны решать. Наиболее распространенные типы проблем машинного обучения - это регрессия, классификация и кластеризация. Существует множество конкретных алгоритмов машинного обучения, большинство из которых имеют множество различных вариаций для решения этих проблем. Некоторые алгоритмы могут решить более одной проблемы.

2.5.2.1. Регресс

Регрессия - это контролируемый подход машинного обучения. Регрессия используется для прогнозирования непрерывного значения. Результатом регрессионного анализа является формула (или модель), которая описывает одну или несколько независимых переменных как зависимое целевое значение. Существует множество различных типов регрессионных моделей, таких как линейная регрессия, логистическая регрессия, гребневая регрессия, лассо-регрессия и полиномиальная регрессия. Однако на сегодняшний день самой популярной моделью для прогнозирования является модель линейной регрессии. Основная формула для одномерной модели линейной регрессии показана ниже:

Другие модели регрессии, хотя и имеют некоторое сходство с линейной регрессией, больше подходят для классификаций, таких как логистическая регрессия [1]. Проблемы регрессии, то есть прогнозирование или прогнозирование числового значения, также могут быть решены с помощью искусственных нейронных сетей, которые вдохновлены структурой и / или функцией биологических нейронных сетей. Это огромное подполе, состоящее из сотен алгоритмов и вариаций, обычно используемых для задач регрессии и классификации. Нейронная сеть предпочтительнее регрессионных моделей, если имеется большое количество переменных. Подобно искусственным нейронным сетям, задачи регрессии и классификации также могут быть решены с помощью алгоритма k-ближайшего соседа.

2.5.2.2. Классификация

Классификация - это задача прогнозирования значения целевого атрибута экземпляра на основе значения набора входных атрибутов, где целевой атрибут является номинальным или порядковым типом данных. Следовательно, в то время как регрессия обычно используется для числовых данных, классификация используется для прогнозирования нечисловых данных. Деревья решений - одни из самых популярных алгоритмов. Другие алгоритмы - это искусственные нейронные сети, k-ближайший сосед и машины опорных векторов. Нейронные сети, состоящие из нескольких уровней, называются моделями глубокого обучения [3].

2.5.2.3. Кластеризация

Кластерный анализ или кластеризация - это задача машинного обучения без учителя. Он включает в себя автоматическое обнаружение естественных закономерностей в немаркированных данных. В отличие от обучения с учителем, алгоритмы кластеризации анализируют только входные данные с целью выявления точек данных, которые имеют схожие атрибуты. Кластеризация K-средних является наиболее часто используемым алгоритмом кластеризации. Это алгоритм на основе центроидов и простейший алгоритм обучения без учителя. Этот алгоритм пытается минимизировать разброс точек данных в кластере.

3. Инструментарий Data Science Toolkit

Специалисты по анализу данных используют самые разные инструменты. В бизнес-контексте электронные таблицы по-прежнему доминируют. Для исследовательской аналитики данных полезны инструменты визуализации, такие как Tableau и Microsoft Power BI, чтобы получить понимание и визуальное представление данных. Для статистики существует ряд установленных статистических пакетов, таких как SAS и SPSS. Машинное обучение обычно проводится с использованием языков программирования. Самыми популярными языками для машинного обучения являются Python, C / C ++, Java, R и Java Script. Большинство вышеупомянутых инструментов можно использовать для большого количества задач, связанных с наукой о данных. Например, язык программирования R был создан в первую очередь для статистических приложений. Поэтому он очень подходит для статистических задач, а также для визуализации с использованием популярного пакета R ggplot2.

4. Процесс обработки данных

Межотраслевой стандартный процесс интеллектуального анализа данных (CRISP-DM) - это модель процесса с шестью фазами, которая естественным образом описывает жизненный цикл науки о данных. Это структура для планирования, организации и реализации проекта по науке о данных.

Он состоит из следующих этапов:

  • Понимание бизнеса - что нужно бизнесу?
  • Понимание данных - какие данные у нас есть / нужны? Это чисто?
  • Подготовка данных - как мы организуем данные для моделирования?
  • Моделирование - Какие методы моделирования мы должны применять?
  • Оценка - Какая модель лучше всего соответствует бизнес-целям?
  • Развертывание - как заинтересованные стороны получают доступ к результатам?

Задуманный в 1996 году, он стал стандартной методологией во всех отраслях, как лучше всего проводить проекты в области науки о данных. Процесс CRISP-DM - ​​это не линейный, а скорее итеративный процесс. Он оценивает все аспекты проекта по науке о данных и, таким образом, значительно увеличивает шансы на успешное завершение. Поэтому большинство менеджеров проектов и специалистов по обработке данных применяют эту методологию [6].

5. Принципы успеха

В заключение, есть несколько факторов, которые определяют, будет ли успешным проект в области науки о данных. Во-первых, на начальном этапе крайне важно, чтобы основная бизнес-проблема была ясна всем заинтересованным сторонам. Во-вторых, необходимо выделить достаточно времени для этапа подготовки данных, на который обычно приходится большая часть времени, затрачиваемого на выполнение большинства проектов. В-третьих, специалист по анализу данных должен выбрать правильные переменные. В идеале модель должна включать минимально возможное количество переменных с соответствующей объясняющей способностью. Поэтому процесс выбора функции важен для максимизации производительности при одновременном снижении шума в модели.

Нерелевантные или частично релевантные функции могут негативно повлиять на производительность модели ».

В-четвертых, следует избегать переобучения и недообучения модели, поскольку недообучение обычно приводит к низкой производительности и высокой ошибке прогноза, а переобучение ведет к плохому обобщению и высокой сложности модели. И, наконец, результат проекта по науке о данных должен быть представлен таким образом, чтобы его могли понять нетехнические специалисты. Подходящим способом передачи данных является использование методов визуализации. В контексте бизнеса хорошим ориентиром для представления данных являются Международные стандарты делового общения (IBCS).

6. Резюме

Наука о данных - сложная и быстро развивающаяся область с уникальным жаргоном. Этот вклад пытается пролить свет на терминологию, отдельные дисциплины, а также на процесс обработки данных. Рекомендации для дальнейшего чтения предоставлены Prezemek Chojecki, а также Claire D. Costa.

Литература

[1] О. Теобальд, Машинное обучение для абсолютных новичков: простое введение в английский (2018), опубликовано независимо.

[2] Д. Шпигельхальтер, Искусство статистики - обучение на основе данных (2019), Penguin

[3] Дж. Келлехер и Б. Тирни, Наука о данных (2018), серия The MIT Press Essential Knowledge.

[4] Джухи Рамзай, Четкое объяснение: чем машинное обучение отличается от интеллектуального анализа данных (2020 г.), Towards Data Science

[5] Иша Салиан, Наблюдайте за мной: в чем разница между контролируемым, неконтролируемым, полу-контролируемым обучением и обучением с подкреплением? (2018), Блог Nvidia

[6] Исраэль Родригес, лидер методологии CRISP-DM в области интеллектуального анализа данных и больших данных (2020 г.), Towards Data Science