В настоящее время многие люди стремятся и исследуют мир науки о данных и AI / ML, что очень обнадеживает с точки зрения повышения квалификации и соответствует темпам меняющегося мира.

На многих тренингах я сталкивался со следующими типами вопросов -

  • Я хочу быть специалистом по машинному обучению, не углубляясь в математику, возможно ли это?
  • Почему математика важна для науки о данных и в мире искусственного интеллекта / машинного обучения?
  • Хотя у нас есть множество богатых ресурсов, таких как Scikit-Learn, Keras, Pytorch, Tensorflow, Auto ML и т. д., которые достаточно надежны для анализа данных и глубокого обучения, нужно ли мне приобретать знания по математике?

Если вы задумаетесь над этими вопросами, это абсолютно хорошая статья для вас.

Прежде чем сразу перейти к ответам на эти вопросы, давайте взглянем на основы машинного обучения. В основе машинного обучения лежат четыре основных направления математики. Они есть -

Статистика - Наша цель:

  • Статистика - это набор инструментов, который помогает определить цель на основе имеющихся данных и информации.
  • Статистика помогает понять анализ данных и преобразовать выборочные наблюдения в значимую информацию.
  • Статистика помогает выполнять анализ исторических данных и событий.
  • В мире не существует системы, в которой хранятся идеальные данные и которые были бы доступны по мере необходимости. В каждой системе есть аномалии данных, такие как неполные, поврежденные данные и т. Д. Статистические концепции будут вашим лучшим другом в таких сложных ситуациях.
  • Он помогает отвечать на такие вопросы, как:
    1. Какой метод кластеризации следует использовать для визуализации многомерных данных о клиентах?
    2. Будет ли рост цен на материал множественной или полиномиальной линейной регрессией?
  • Статистические концепции, которые необходимо знать - распределение, центральная тенденция, меры изменчивости, асимметрия, ковариация / коэффициент линейной корреляции, центральная предельная теорема, проверка гипотез, регрессия, мультиколлинеарность, гомоскедастичность и т. Д.

Вероятность - прогнозирует вероятный исход:

  • В прогнозной аналитике вероятность играет важную роль, предсказывая вероятность будущих событий в машинном обучении.
  • Основными источниками неопределенных событий, которые вносят несовершенство в модели машинного обучения, являются шум и недостаток соответствующих данных.
  • Вероятность помогает ответить на такие вопросы, как:
    1. Как мне откалибровать пороговое значение (например, уровень достоверности 0,9 против 0,8?) Для «блокировки» мошеннических транзакций пользователей?
    2. Когда нужно принимать решение дерево не разбивается по ожиданиям?
    3. Уровень уверенности в следующих ходах в партиях?
  • Концепции вероятностей, которые необходимо знать - совместная, предельная и условная вероятность, распределения вероятностей (дискретное, непрерывное), оценка плотности, оценка максимального правдоподобия, регрессия с максимальным правдоподобием, теорема Байеса, энтропия, получение информации и т. Д.

Линейная алгебра - обрабатывает большие объемы данных:

  • Линейная алгебра встречается повсюду в мире машинного обучения.
  • Без линейной алгебры
    невозможно разработать методы машинного обучения.
    Невозможно добиться уменьшения размерности.
    Невозможно обрабатывать и манипулировать сложной структурой данных.
    Матричные операции с большими данными наборы невозможны.
  • Специалисты по анализу данных часто сталкиваются с методами анализа главных компонентов и методами машины опорных векторов, функциями регуляризации и т. Д., Которые основаны на линейной алгебре.
  • Понятия линейной алгебры, которые необходимо знать - векторы, векторные пространства, скаляры, собственное разложение матрицы, LU-разложение, QR-разложение / факторизация, симметричные матрицы, ортогонализация и ортонормализация, матричные операции, проекции, собственные значения и собственные векторы и т. Д.

Расчет - Как оптимизировать модели:

  • Calculus - это набор инструментов для анализа взаимосвязи между функциями и их входными данными.
  • Исчисление играет неотъемлемую роль во многих алгоритмах машинного обучения, таких как алгоритм градиентного спуска и обратное распространение для обучения нейронных сетей с глубоким обучением.
  • Знание расчетов помогает в оптимизации производительности модели.
  • Понятия исчисления, которые необходимо знать - дифференциальное и интегральное исчисление, частные производные, векторные функции, направленный градиент, якобиан и т. Д.

В качестве мягких предпосылок есть ожидание, что человек должен иметь четкое представление об этих математических концепциях.

На начальном уровне мастерства не ожидается, но «хорошо иметь» становится, когда кто-то продвигается в ML / DL, разрабатывает модели, оптимизирует их и настраивает точность модели.

Давайте рассмотрим приведенные выше вопросы, как математика помогает в машинном обучении?

Когда кто-то сталкивается с проблемами реального мира в машинном обучении, их становится легко решить, если он / она хорошо понимает и интуитивно понимает математические концепции. Это также улучшает навыки решения критических проблем, таких как -

  • Правильная отладка моделей машинного обучения
  • Объяснение скрытых аспектов с помощью математических представлений.
  • Почему ваша модель не совпадает с конкретным определением потерь?
  • Как правильно измерить успех?
  • Насколько разумны ваши веса?
  • Как вы оптимизируете свою модель для достижения максимальной точности?

Это не только решает проблемы, но и способствует развитию новых идей для предоставления эффективных решений машинного обучения. Для решения различных задач требуется разный уровень интуиции, поэтому в первую очередь необходимо выяснить, каковы цели.

Последний, но тем не менее важный -

«Рэйчел Томас из Fast.ai является сторонницей этого метода« по требованию »- обучая студентов, она обнаружила, что для ее студентов глубокого обучения важнее зайти достаточно далеко, чтобы получить удовольствие от материала. После этого их математическое образование включало заполнение дыр по запросу »

Ссылки
Спасибо за следующие сайты, на которые я ссылался при написании этой статьи. Подробности можно найти на следующих сайтах.

Следующая статья Хранение данных ДНК
https://medium.com/@dhirendra.misra/is-dna-future-data-storage-solution-9ced9db6f75f

Https://blog.ycombinator.com/learning-math-for-machine-learning/

Https://developers.google.com/machine-learning/guides/rules-of-ml/ от Мартин Зинкевич, научный сотрудник Google.

Https://www.quora.com/How-do-I-learn-mat Mathematics-for-machine-learning