Роль математики в науке о данных

Редактор - Измаил Нджи

Что такое наука о данных?

Наука о данных объединяет различные области работы в области статистики и вычислений, чтобы интерпретировать данные с целью принятия решений. [1]

Термин «наука» подразумевает, что эта область полагается на систематические процессы для достижения результатов, которые можно проверить. Эта область требует концепций, взятых из математики и информатики, поскольку результаты, полученные с помощью таких процессов, могут быть использованы для решения следующих задач:

  • Рекомендует фильм для просмотра на Netflix.
  • Прогнозирование прибыли компании
  • Цену дома можно спрогнозировать, поскольку она измеряется с учетом таких характеристик, как количество комнат, площадь в квадратных футах и ​​т. Д.
  • Предложение песни для добавления в плейлист Spotify

Так как же математика вписывается в это?

Математика очень важна в области науки о данных, поскольку математические концепции помогают выявлять закономерности и помогают в создании алгоритмов. Понимание различных понятий статистики и теории вероятностей является ключевым для реализации таких алгоритмов в науке о данных. Понятия включают: регрессию, оценку максимального правдоподобия, понимание распределений (биномиальное, Бернулли, гауссовское (нормальное)) и теорему Байеса.

Машинное обучение - это область, в которой компьютеры могут учиться / работать, не будучи запрограммированными на это. Отмеченные выше математические концепции являются ключевыми для понимания / реализации следующих методов машинного обучения:

1. Регресс:

Регрессия - это ветвь статистики, которую можно использовать для прогнозирования определенного набора данных. Типы регрессии включают: простую линейную, множественную линейную, полиномиальную и логистическую.

Возможно, мне захочется выяснить взаимосвязь между продолжительностью обучения ученика в день и его оценками на тестах. Я также могу узнать, насколько мои расходы зависят от моего дохода. На это мы можем ответить регрессом.

Давайте посмотрим на пример простой линейной регрессии. Линейная регрессия - это метод в статистике для прогнозирования переменной ответа путем подбора линии, которая наилучшим образом представляет отношения между зависимой и независимой переменной. Предположим, вам дан набор данных (обучающий набор), который иллюстрирует продажи мороженого y на основе средней температуры в данный день x за определенный период времени. Метод регрессии изучает веса w, чтобы наилучшим образом соответствовать обучающим данным; затем это можно использовать для прогнозирования y.

В процессе обучения весов для линии регрессии цель состоит в том, чтобы минимизировать функцию ошибок:

Чтобы минимизировать E (w), можно использовать решение в закрытой форме; по сути, найти производную от E (w) и найти нулевую производную. Это предоставит нам веса, которые минимизируют расстояние между линией регрессии и данными обучения.

Как видно на графике, существует положительная корреляция между средней температурой и продажами мороженого в данный день. Таким образом, высокая средняя температура предсказывает большое количество продаж штучного мороженого.

Здесь изученные веса для уравнения регрессии составляют: 13,818 и 0,2262, образуя уравнение: y = 13,818x + 0,2262. Теперь это можно использовать для прогнозирования продаж единицы товара при определенной средней температуре на данный день.

2. Классификация:

Классификация - это метод, используемый для присвоения категорий набору данных, чтобы помочь в точных прогнозах и анализе. С помощью алгоритмов классификации вы получаете доступ к существующему набору данных и знаете классы конкретных экземпляров; с этими знаниями можно затем сгенерировать прогнозную модель для решения следующей проблемы: для каждого будущего экземпляра в наборе данных, к какому классу принадлежит конкретный экземпляр.

Типы алгоритмов классификации включают максимальную энтропию, K-ближайшего соседа и наивный байесовский алгоритм.

Максимальная энтропия (логистическая регрессия): в отличие от концепции регрессии, упомянутой выше, где веса учатся предсказывать непрерывные значения, веса учатся предсказывать категориальные значения.

K-ближайший сосед: новые экземпляры сравниваются с историческими точками данных и классифицируются в зависимости от того, насколько они близки к историческим.

Наивный Байес: теорема Байеса является основой алгоритма Наивного Байеса, алгоритма классификации, в котором все классифицируемые признаки независимы друг от друга, независимо от их взаимосвязи между собой. Отличный пример, объясняющий алгоритм Наивного Байеса, можно найти здесь.

Применения классификации включают:

  • Определение того, является ли электронное письмо спамом.
  • Как определить, изображает ли данное изображение кошку или собаку
  • Категоризация видео на YouTube.

Вкратце, Data Science используется для поиска / идентификации шаблонов, и, имея понимание различных математических понятий (некоторые из которых упомянуты в этом сообщении), шаблоны могут быть изображены таким образом, чтобы их можно было проанализировать, что имеет первостепенное значение для создание статистических моделей, алгоритмов и процессов для точного принятия решений.