Говорят, что стать специалистом по данным — самая сексуальная профессия двадцать первого века. Но кто именно является специалистом по данным и чем он занимается? Ответ на этот вопрос варьируется от организации к организации, от домена к домену, от роли к роли и от человека к человеку. Но одно остается неизменным на протяжении всего времени. Для специалиста по данным важно хорошо разбираться в программировании, статистике и математике. Знание предметной области проблемы, с которой они работают, является дополнительным преимуществом. Но используют ли специалисты по данным все три компонента: программирование, статистику и математику в своих повседневных задачах? Ответ снова и да и нет. Специалист по данным, работающий над компьютерным зрением, может использовать программирование больше, чем статистику, а специалист по данным, работающий над прогнозной аналитикой, может больше сосредоточиться на статистике. Но для какой-то части их работы может потребоваться, чтобы они были мастерами на все руки.

Не все, кто входит в мир науки о данных, имеют математическое или статистическое образование, у некоторых может даже не быть опыта STEM. Но мир науки о данных такой, какой он есть. Им необходимо изучать математику и статистику в такой степени, чтобы им было легко выполнять свою работу. Вам просто нужно учить математику, а не быть экспертом-математиком. Но сколько математики точно достаточно математики? Почти каждый стал жертвой этого серьезного вопроса. И мы попытались ответить на него в какой-то степени примерами использования. Как и любая другая область, математика сама по себе является огромным океаном. Океан — это преуменьшение, здесь подходящим словом может быть вселенная.

Теория меры, топология, вещественный анализ, комплексный анализ, преобразования Фурье, преобразования Лапласа, интегральное исчисление, дифференциальное исчисление, интегральное исчисление, линейная алгебра, теория чисел и многие другие темы. Вы спросите, что это? Это несколько подполей математики, которые имеют уникальное применение в науке о данных и машинном обучении. Я уверен, что математика была чем-то, что мы все ненавидели в детстве. Но нужно ли всем знать обо всем вышеперечисленном (?!) НЕТ, вам не обязательно быть специалистом во всех вышеупомянутых областях, но базового понимания дифференциального исчисления и линейной алгебры должно быть достаточно для большинства задач. в различных доменах. Давайте подробнее рассмотрим, как специалист по данным использует их ежедневно.

Исчисление

Некоторые из важных тем, которые необходимо охватить в исчислении:

  • Производные
  • Частные производные
  • Правило цепи
  • Матрица Якоби
  • Глобальные и локальные экстремумы (минимумы и максимумы)
  • Седловая точка и
  • Определенные интегралы

Исчисление звучит пугающе, я знаю. Но многие области науки о данных как минимум нуждаются в базовом исчислении. Производные занимают важную часть машинного обучения. Вы слышали об оптимизации функций? Если вы увлекаетесь нейронными сетями и глубоким обучением, вы, должно быть, сталкивались с этим. Особенно глубокие нейронные сети обучаются путем оптимизации функции потерь.

«Количественная разница между ожидаемым результатом и результатом, предсказанным моделью ML, называется функцией потерь». Градиентный спуск — один из таких алгоритмов оптимизации для обучения моделей машинного обучения и нейронных сетей. Предполагая, что вы знаете, что такое линия наилучшего соответствия в регрессии, алгоритм градиентного спуска аналогичен, за исключением того, что это выпуклая функция.

Начав с произвольной точки, мы продолжаем оценивать производительность модели, двигаясь в направлении самой крутой точки. Параметры, веса и смещение обновляются в зависимости от наклона. Касательная линия используется для наблюдения за крутизной склона. Наклон круче в начальной точке и постепенно, по мере создания новых параметров, уменьшается до тех пор, пока не будет достигнута самая нижняя точка на кривой. Самая нижняя точка кривой также называется точкой схождения.

Отправная точка — это просто произвольная точка для оценки производительности. Из этой начальной точки мы найдем производную (или наклон), и оттуда мы можем использовать касательную линию, чтобы наблюдать крутизну наклона. Наклон будет информировать об обновлениях параметров, то есть весов и смещения. Наклон в начальной точке будет более крутым, но по мере создания новых параметров крутизна должна постепенно уменьшаться, пока не достигнет самой низкой точки на кривой, известной как точка схождения. Скорость обучения является наиболее важным параметром в алгоритмах градиентного спуска. Также известный как размер шага или альфа, это количество итераций, необходимых для достижения точки сходимости. Три типа алгоритмов обучения градиентному спуску: пакетный градиентный спуск, стохастический градиентный спуск и мини-пакетный градиентный спуск. Чтобы узнать больше о том, как работает градиентный спуск, читайте здесь.

Линейная алгебра

Векторы и матрицы являются распространенной неструктурированной формой данных. Линейная алгебра имеет дело с ними. Это один из самых важных математических навыков, необходимых для науки о данных. Основываясь на структуре данных, их можно разделить на две категории: векторная алгебра и матричная алгебра.

Темы векторной алгебры, которые необходимо охватить:

а. Сложение и вычитание векторов

б. Масштабирование векторов

в. Скалярный продукт и перекрестный продукт

д. Векторные проекции

е. Ортогональность и ортонормированность.

Темы линейной алгебры, которые необходимо охватить:

а. Типы матрицы

б. Матричное сложение и вычитание.

в. Матричное транспонирование и умножение.

д. Определители, обратная и след матрицы.

е. Собственные значения и собственные векторы.

Этапы предварительной обработки данных включают в себя такие понятия линейной алгебры, как замена отсутствующих значений средним значением, стандартизация и нормализация. Процессы проектирования функций, такие как создание новой функции путем объединения существующих функций, также связаны с математикой, например, создание нового столбца путем умножения значений из двух существующих столбцов и т. д. Матрица корреляции — одна из наиболее важных матриц в машинном обучении, а также в науке о данных. В линейной алгебре разложение по сингулярным числам, также известное как SVD, представляет собой метод разложения матрицы на три матрицы. Это очень часто используется в качестве рекомендательной системы. Можете ли вы поверить, что можете построить рекомендательную систему с помощью простых концепций линейной алгебры, таких как собственные значения, собственные векторы, транспонирование матрицы и умножение матриц? Да, именно это и делается в СВД! И с помощью этих простых шагов вы можете создать свою собственную рекомендательную систему или объединить ее с существующей системой, чтобы создать лучшую. Он также используется в качестве метода сокращения данных. Его приложения распространяются на метод наименьших квадратов в линейной регрессии, сжатии изображений и шумоподавлении данных, а также некоторые другие. Computer Vision — это изображения в виде чисел в матрицах!

вероятность и статистика

Они составляют один из столпов фундамента науки о данных и анализа данных. Различные типы аналитики выполняются для разных вариантов использования, но все они используют концепцию из статистики или других источников. Теория вероятностей — это математическая основа для количественной оценки неопределенности данных. Это помогает нам эффективно рассуждать там, где нельзя быть уверенным. Он устанавливает основу для многих алгоритмов машинного обучения, включая наивную теорему Байеса. Перестановка и комбинация — это некоторые часто используемые концепции вероятности в приложениях по науке о данных.

  • Теория множеств
  • Перестановки и комбинации
  • Концепция случайных величин
  • Распределение вероятностей
  • Непрерывное распределение вероятностей — Функция плотности вероятности, Кумулятивная функция плотности.
  • Discrete Probability Distribution — Функция массы вероятности, Кумулятивная функция массы
  • Главная тенденция
  • Центральная предельная теорема
  • Изменчивость, асимметрия и эксцесс.
  • Отношения между переменными — матрица причинности, ковариации и корреляции (всегда помните, что корреляция не подразумевает причинно-следственную связь)
  • Проверка гипотез и статистическая значимость (Слышали о знаменитом значении p?)
  • Нулевая гипотеза и альтернативная гипотеза
  • Ошибка 1 и 2 типа.
  • Интерпретация p-значения, критического значения, уровня значимости и доверительных интервалов.
  • Регрессия
  • И самое главное, понимание различных типов аналитики.

Как специалист по данным, вы можете использовать его чаще, чем наблюдаете. Одним из примеров использования вероятности в машинном обучении является наивная теорема Байеса. Это классификационная модель, которая предполагает, что все признаки независимы друг от друга и имеют одинаковую важность. Условное распределение, теория множеств используются в наивной байесовской модели. A/B-тестирование — это еще одна концепция статистики, которую используют многие специалисты по обработке и анализу данных. Прогнозирование того, кто выиграет этот матч IPL, также является применением вышеприведенных концепций статистики.

Вот ссылка, чтобы узнать больше о том же.

Может показаться, что в математике и статистике многое нужно охватить даже для основ, но все зависит в первую очередь от того, каким специалистом по данным вы хотите быть. Хотя знание центральной предельной теоремы и распределения вероятностей может не понадобиться тем, кто работает в области компьютерного зрения, они нужны тем, кто занимается прогностической аналитикой и моделированием. Я призываю новичков начинать с базового материала курса и продвигаться по мере необходимости.