В настоящее время многие люди стремятся и исследуют мир науки о данных и AI / ML, что очень обнадеживает с точки зрения повышения квалификации и соответствует темпам меняющегося мира.
На многих тренингах я сталкивался со следующими типами вопросов -
- Я хочу быть специалистом по машинному обучению, не углубляясь в математику, возможно ли это?
- Почему математика важна для науки о данных и в мире искусственного интеллекта / машинного обучения?
- Хотя у нас есть множество богатых ресурсов, таких как Scikit-Learn, Keras, Pytorch, Tensorflow, Auto ML и т. д., которые достаточно надежны для анализа данных и глубокого обучения, нужно ли мне приобретать знания по математике?
Если вы задумаетесь над этими вопросами, это абсолютно хорошая статья для вас.
Прежде чем сразу перейти к ответам на эти вопросы, давайте взглянем на основы машинного обучения. В основе машинного обучения лежат четыре основных направления математики. Они есть -
Статистика - Наша цель:
- Статистика - это набор инструментов, который помогает определить цель на основе имеющихся данных и информации.
- Статистика помогает понять анализ данных и преобразовать выборочные наблюдения в значимую информацию.
- Статистика помогает выполнять анализ исторических данных и событий.
- В мире не существует системы, в которой хранятся идеальные данные и которые были бы доступны по мере необходимости. В каждой системе есть аномалии данных, такие как неполные, поврежденные данные и т. Д. Статистические концепции будут вашим лучшим другом в таких сложных ситуациях.
- Он помогает отвечать на такие вопросы, как:
1. Какой метод кластеризации следует использовать для визуализации многомерных данных о клиентах?
2. Будет ли рост цен на материал множественной или полиномиальной линейной регрессией? - Статистические концепции, которые необходимо знать - распределение, центральная тенденция, меры изменчивости, асимметрия, ковариация / коэффициент линейной корреляции, центральная предельная теорема, проверка гипотез, регрессия, мультиколлинеарность, гомоскедастичность и т. Д.
Вероятность - прогнозирует вероятный исход:
- В прогнозной аналитике вероятность играет важную роль, предсказывая вероятность будущих событий в машинном обучении.
- Основными источниками неопределенных событий, которые вносят несовершенство в модели машинного обучения, являются шум и недостаток соответствующих данных.
- Вероятность помогает ответить на такие вопросы, как:
1. Как мне откалибровать пороговое значение (например, уровень достоверности 0,9 против 0,8?) Для «блокировки» мошеннических транзакций пользователей?
2. Когда нужно принимать решение дерево не разбивается по ожиданиям?
3. Уровень уверенности в следующих ходах в партиях? - Концепции вероятностей, которые необходимо знать - совместная, предельная и условная вероятность, распределения вероятностей (дискретное, непрерывное), оценка плотности, оценка максимального правдоподобия, регрессия с максимальным правдоподобием, теорема Байеса, энтропия, получение информации и т. Д.
Линейная алгебра - обрабатывает большие объемы данных:
- Линейная алгебра встречается повсюду в мире машинного обучения.
- Без линейной алгебры
невозможно разработать методы машинного обучения.
Невозможно добиться уменьшения размерности.
Невозможно обрабатывать и манипулировать сложной структурой данных.
Матричные операции с большими данными наборы невозможны. - Специалисты по анализу данных часто сталкиваются с методами анализа главных компонентов и методами машины опорных векторов, функциями регуляризации и т. Д., Которые основаны на линейной алгебре.
- Понятия линейной алгебры, которые необходимо знать - векторы, векторные пространства, скаляры, собственное разложение матрицы, LU-разложение, QR-разложение / факторизация, симметричные матрицы, ортогонализация и ортонормализация, матричные операции, проекции, собственные значения и собственные векторы и т. Д.
Расчет - Как оптимизировать модели:
- Calculus - это набор инструментов для анализа взаимосвязи между функциями и их входными данными.
- Исчисление играет неотъемлемую роль во многих алгоритмах машинного обучения, таких как алгоритм градиентного спуска и обратное распространение для обучения нейронных сетей с глубоким обучением.
- Знание расчетов помогает в оптимизации производительности модели.
- Понятия исчисления, которые необходимо знать - дифференциальное и интегральное исчисление, частные производные, векторные функции, направленный градиент, якобиан и т. Д.
В качестве мягких предпосылок есть ожидание, что человек должен иметь четкое представление об этих математических концепциях.
На начальном уровне мастерства не ожидается, но «хорошо иметь» становится, когда кто-то продвигается в ML / DL, разрабатывает модели, оптимизирует их и настраивает точность модели.
Давайте рассмотрим приведенные выше вопросы, как математика помогает в машинном обучении?
Когда кто-то сталкивается с проблемами реального мира в машинном обучении, их становится легко решить, если он / она хорошо понимает и интуитивно понимает математические концепции. Это также улучшает навыки решения критических проблем, таких как -
- Правильная отладка моделей машинного обучения
- Объяснение скрытых аспектов с помощью математических представлений.
- Почему ваша модель не совпадает с конкретным определением потерь?
- Как правильно измерить успех?
- Насколько разумны ваши веса?
- Как вы оптимизируете свою модель для достижения максимальной точности?
Это не только решает проблемы, но и способствует развитию новых идей для предоставления эффективных решений машинного обучения. Для решения различных задач требуется разный уровень интуиции, поэтому в первую очередь необходимо выяснить, каковы цели.
Последний, но тем не менее важный -
«Рэйчел Томас из Fast.ai является сторонницей этого метода« по требованию »- обучая студентов, она обнаружила, что для ее студентов глубокого обучения важнее зайти достаточно далеко, чтобы получить удовольствие от материала. После этого их математическое образование включало заполнение дыр по запросу »
Ссылки
Спасибо за следующие сайты, на которые я ссылался при написании этой статьи. Подробности можно найти на следующих сайтах.
Следующая статья Хранение данных ДНК
https://medium.com/@dhirendra.misra/is-dna-future-data-storage-solution-9ced9db6f75f
Https://blog.ycombinator.com/learning-math-for-machine-learning/
Https://developers.google.com/machine-learning/guides/rules-of-ml/ от Мартин Зинкевич, научный сотрудник Google.
Https://www.quora.com/How-do-I-learn-mat Mathematics-for-machine-learning