Дорожная карта для освоения машинного обучения с нуля

Вы также не знаете, с чего начать и по какому пути идти, чтобы стать инженером по машинному обучению?

Не волнуйтесь!

Мы здесь, чтобы ответить на эти вопросы и обсудим дорожную карту для изучения машинного обучения.

«Машинное обучение — это подмножество искусственного интеллекта, которое дает машине возможность учиться автоматически и совершенствоваться на основе опыта без явного программирования».

Не поняли определение?

Что ж, давайте объясним вам это на примере.

Допустим, вы хотите купить новый ноутбук. Вы идете на Amazon и ищете ноутбуки. В следующий раз, когда вы снова зайдете, Amazon попытается показать вам продукты, которые люди часто покупают, а также ноутбуки, такие как сумка для ноутбука, микрофон и т. д. Итак, теперь система рекомендаций Amazon понимает ваши предпочтения и показывает вам продукты, которые могут вам понравиться. готов купить. Только представьте, если компания может понять предпочтения людей, они могут показывать те же продукты вместе с привлекательными скидками, которые могут значительно увеличить прибыль компании. На самом деле только машинное обучение управляет системой такого типа, когда машина понимает предпочтения людей напрямую, без явного программирования.

Он используется во многих других приложениях, таких как распознавание изображений, обнаружение мошенничества, анализ вредоносных программ, распознавание речи и т. д.

Вы тоже хотите начать работу в этой быстро развивающейся области? Не беспокойтесь, мы обсудим дорожную карту изучения машинного обучения, а затем вы также сможете создавать действительно потрясающие продукты и приложения.

«Машинный интеллект — последнее изобретение, которое когда-либо понадобится человечеству»

-Ник Бостром

Содержание

Начните с машинного обучения
Математика
вероятность и статистика
Выберите язык программирования
Управление базами данных
Машинное обучение
Развертывание
Что дальше?
Заключение

https://www.letthedataconfess.com/courses/end-to-end-machine-learning-project/

Давай начнем..!!

1. Математика

Вам может быть интересно, почему математика необходима для машинного обучения?

Что ж, машинное обучение — это не только кодирование на предпочитаемом вами языке программирования. Исследователи очень старательно создали множество алгоритмов машинного обучения с использованием математических методов. Хорошее понимание математики помогает хорошо понять алгоритмы машинного обучения.

Когда вы понимаете математику, вы можете выбрать правильный алгоритм с учетом таких аспектов, как точность, сложность модели, время обучения.

Есть определенные темы, в которых вы должны хорошо разбираться. Эти темы включают:

Вычисления
Линейная алгебра
Матрицы
Векторы
Анализ основных компонентов

2. Вероятность и статистика

Хорошо, позвольте мне дать вам выбор. У вас есть набор данных, вы будете напрямую создавать модель машинного обучения? Если ваш ответ да, вы ошиблись. Прежде всего, вам нужно понять набор данных, над которым вы работаете. Просто погрузитесь в данные и исследуйте всю скрытую информацию из огромного количества данных.

Сначала вы должны хорошо обрабатывать свои данные и вносить изменения, такие как работа с пропущенными значениями, обнаружение выбросов.

Зачем нам нужен этот процесс? Вы получите мусор, только если выбросите мусор. Вот почему сначала очистите свои данные, а затем передайте их модели машинного обучения.

Важность вероятности и статистики для науки о данных

Вероятность и статистика являются неотъемлемыми частями анализа данных. Прежде чем создавать модели машинного обучения, вы должны сначала понять свои данные, а статистика необходима для науки о данных. Вы должны знать, какое распределение следует за вашим набором данных и что было бы идеальным способом замены, например, отсутствующих значений. Темы, которые вы должны особенно понимать:

Случайные переменные
Меры центральной тенденции
Стандартное отклонение и дисперсия
Различные типы распределения (биномиальное, бернуллиевское, равномерное, гауссовское и т. д.)
Проверка гипотезы
Регрессия
Корреляция и ее виды
Ковариация
Нормализация и стандартизация

Я бы порекомендовал вам точно знать, почему эти конкретные статистические темы необходимы для науки о данных. Вы можете изучить их по ссылке ниже:

https://www.letthedataconfess.com/blog/2021/10/28/statistical-concepts-for-data-science-beginners-part-1/

3. Выберите язык программирования

Хорошо, если вы разбираетесь в математических и статистических методах. Но достаточно ли? Нет, теперь вам нужно перейти к действию и начать кодирование, так как вам нужно кодировать, чтобы взаимодействовать с моделями ML и начать получать результаты.

Но какой язык программирования выбрать для задачи машинного обучения?

Однако большинство людей предпочитают Python для машинного обучения, но R также является хорошим выбором, особенно для данных и статистического анализа.

В Python вы должны знать основные структуры данных, такие как List, Tuple, Dictionary, Dataframe и т. д. Эти структуры данных помогут вам эффективно хранить ваши данные.

В Python встроено множество библиотек и модулей для целей анализа, моделирования и визуализации.

Библиотеки анализа

NumPy
Панды

Библиотеки визуализации

Панды
Матплотлиб
Сиборн
Боке
сюжетно

Статистическая библиотека

статистическая модель

4. Машинное обучение

Теперь наступает момент, когда вы все очень взволнованы. Самая важная цель всего этого долгого процесса — наконец создать модели и получить прогнозы. Только представьте, вы вводите данные о параметрах вашего сердечного теста и получаете прогноз, есть ли у вас заболевание сердца или нет. Разве это не увлекательно!

Что касается машинного обучения, вам необходимо понимать разницу между контролируемым, неконтролируемым и кластеризацией, а также разницу между классификацией и регрессией. Наряду с реализацией алгоритмов вы также должны понимать математику, лежащую в основе алгоритмов.

Алгоритмы контролируемого обучения:

Линейная регрессия

Логистическая регрессия

Древо решений

Случайный лес

Наивный Байес

Машина опорных векторов

XGBoost

Алгоритмы обучения без учителя

K-средние

K-NN

Иерархическая кластеризация

БД-СКАН

Наряду с ними вы должны знать методы выбора функций и разработки функций. Для этого пригодятся знания статистики. Функция выбора функций помогает выбрать лучшие функции для модели. Не похоже, что вы должны передавать все функции непосредственно в свою модель. Для модели машинного обучения выбираются только несколько функций, которые коррелируют с выходной переменной.

5. Развертывание

Развертывание — это то, что вы просто не можете игнорировать в ML Pipeline. Крайне важно развернуть ваше приложение в реальной жизни, чтобы люди могли его использовать. Сначала вы можете интегрировать свои модели ML с веб-сайтами, используя такие фреймворки, как Flask, Django.

Затем вы можете развернуть их на различных облачных платформах, таких как:

Microsoft Azure
Веб-сервисы Amazon (AWS)
Облачная платформа Google (GCP)
Героку

Что дальше?

После того, как вы поняли весь конвейер машинного обучения, вы должны начать создавать несколько сквозных проектов вместе с развертыванием. Найдите любой реальный вариант использования и начните делать проект на нем.

Чтобы получить некоторые свободно доступные наборы данных, вы можете проверить Kaggle. Это отличный ресурс для получения наборов данных, а также для участия в конкурсах по науке о данных, чтобы отточить свои навыки в области науки о данных. Наличие как минимум 2–3 хороших проектов в резюме дает вам преимущество на собеседованиях по науке о данных.

Кроме того, вы также можете изучить Deep Learning, NLP и Computer Vision.

Заключение

В заключение, машинное обучение является сегодня одной из самых популярных технологий на рынке, открывающей огромные возможности во всем мире.

В этом блоге мы обсудили важность математики и статистики в машинном обучении, а также привели несколько примеров из реальной жизни, чтобы пробудить в вас интерес и увлечение этой удивительной областью.

Если вы хотите изучить сквозные проекты машинного обучения, ознакомьтесь с подробностями нашего предстоящего учебного лагеря ниже: