Роль математики в науке о данных
Редактор - Измаил Нджи
Что такое наука о данных?
Наука о данных объединяет различные области работы в области статистики и вычислений, чтобы интерпретировать данные с целью принятия решений. [1]
Термин «наука» подразумевает, что эта область полагается на систематические процессы для достижения результатов, которые можно проверить. Эта область требует концепций, взятых из математики и информатики, поскольку результаты, полученные с помощью таких процессов, могут быть использованы для решения следующих задач:
- Рекомендует фильм для просмотра на Netflix.
- Прогнозирование прибыли компании
- Цену дома можно спрогнозировать, поскольку она измеряется с учетом таких характеристик, как количество комнат, площадь в квадратных футах и т. Д.
- Предложение песни для добавления в плейлист Spotify
Так как же математика вписывается в это?
Математика очень важна в области науки о данных, поскольку математические концепции помогают выявлять закономерности и помогают в создании алгоритмов. Понимание различных понятий статистики и теории вероятностей является ключевым для реализации таких алгоритмов в науке о данных. Понятия включают: регрессию, оценку максимального правдоподобия, понимание распределений (биномиальное, Бернулли, гауссовское (нормальное)) и теорему Байеса.
Машинное обучение - это область, в которой компьютеры могут учиться / работать, не будучи запрограммированными на это. Отмеченные выше математические концепции являются ключевыми для понимания / реализации следующих методов машинного обучения:
1. Регресс:
Регрессия - это ветвь статистики, которую можно использовать для прогнозирования определенного набора данных. Типы регрессии включают: простую линейную, множественную линейную, полиномиальную и логистическую.
Возможно, мне захочется выяснить взаимосвязь между продолжительностью обучения ученика в день и его оценками на тестах. Я также могу узнать, насколько мои расходы зависят от моего дохода. На это мы можем ответить регрессом.
Давайте посмотрим на пример простой линейной регрессии. Линейная регрессия - это метод в статистике для прогнозирования переменной ответа путем подбора линии, которая наилучшим образом представляет отношения между зависимой и независимой переменной. Предположим, вам дан набор данных (обучающий набор), который иллюстрирует продажи мороженого y на основе средней температуры в данный день x за определенный период времени. Метод регрессии изучает веса w, чтобы наилучшим образом соответствовать обучающим данным; затем это можно использовать для прогнозирования y.
В процессе обучения весов для линии регрессии цель состоит в том, чтобы минимизировать функцию ошибок:
Чтобы минимизировать E (w), можно использовать решение в закрытой форме; по сути, найти производную от E (w) и найти нулевую производную. Это предоставит нам веса, которые минимизируют расстояние между линией регрессии и данными обучения.
Как видно на графике, существует положительная корреляция между средней температурой и продажами мороженого в данный день. Таким образом, высокая средняя температура предсказывает большое количество продаж штучного мороженого.
Здесь изученные веса для уравнения регрессии составляют: 13,818 и 0,2262, образуя уравнение: y = 13,818x + 0,2262. Теперь это можно использовать для прогнозирования продаж единицы товара при определенной средней температуре на данный день.
2. Классификация:
Классификация - это метод, используемый для присвоения категорий набору данных, чтобы помочь в точных прогнозах и анализе. С помощью алгоритмов классификации вы получаете доступ к существующему набору данных и знаете классы конкретных экземпляров; с этими знаниями можно затем сгенерировать прогнозную модель для решения следующей проблемы: для каждого будущего экземпляра в наборе данных, к какому классу принадлежит конкретный экземпляр.
Типы алгоритмов классификации включают максимальную энтропию, K-ближайшего соседа и наивный байесовский алгоритм.
Максимальная энтропия (логистическая регрессия): в отличие от концепции регрессии, упомянутой выше, где веса учатся предсказывать непрерывные значения, веса учатся предсказывать категориальные значения.
K-ближайший сосед: новые экземпляры сравниваются с историческими точками данных и классифицируются в зависимости от того, насколько они близки к историческим.
Наивный Байес: теорема Байеса является основой алгоритма Наивного Байеса, алгоритма классификации, в котором все классифицируемые признаки независимы друг от друга, независимо от их взаимосвязи между собой. Отличный пример, объясняющий алгоритм Наивного Байеса, можно найти здесь.
Применения классификации включают:
- Определение того, является ли электронное письмо спамом.
- Как определить, изображает ли данное изображение кошку или собаку
- Категоризация видео на YouTube.
Вкратце, Data Science используется для поиска / идентификации шаблонов, и, имея понимание различных математических понятий (некоторые из которых упомянуты в этом сообщении), шаблоны могут быть изображены таким образом, чтобы их можно было проанализировать, что имеет первостепенное значение для создание статистических моделей, алгоритмов и процессов для точного принятия решений.