Машинное обучение — это метод обучения машин или компьютеров делать прогнозы на основе наборов данных и опыта.

Вкратце, машинное обучение — это подмножество искусственного интеллекта, которое автоматизирует построение аналитической модели с использованием алгоритма.

Это похоже на систему вопросов и ответов.

1. Применение ОД

  • Результат поисковой системы
  • Распознавание номерных знаков
  • Распознавание голоса
  • Читатель снов

2. Как работает машинное обучение

У него есть несколько фаз, которые вы должны знать.

  1. Фаза 1 (обучение)

2. Фаза 2 (прогнозирование)

3. Рабочий процесс машинного обучения

4. Тип ОД

  1. Контролируемое обучение
  2. Неконтролируемое обучение
  3. Обучение с подкреплением

5. Выполните следующие шаги: -

1. Сбор данных:

Во-первых, нам нужны наборы данных из любых источников:

  • Сбор самостоятельно: (если у вас есть бизнес, у вас могут быть данные)
  • третьими лицами: (данные государственных или негосударственных организаций)
  • кудрявый источник: (если вы публикуете какое-либо приложение, веб-сайт или какое-либо приложение, у вас могут быть данные)

Интеграция данных :

Вы можете найти наборы данных с различными типами источников:

  • Базы данных
  • Файлы
  • Кубы данных

Затем вы не можете использовать, хотите избежать проблем с данными.

  • Идентификация объекта: некоторые люди могут иметь хранилище под другим именем, поэтому мы должны идентифицировать его перед использованием наборов данных. Итак, мы можем применить идентификацию человека по идентификационному номеру, тогда мы сможем избежать этой проблемы.
  • Конфликт значений данных: некоторые данные могут храниться в разных форматах в разных базах данных. вроде одна база — км и другая база — м.
  • Производные данные: мы хотим преобразовать некоторые данные, например, полученный возраст из базы данных.

Обработка отсутствующих значений:

  • Некоторые данные могут отсутствовать в вашем наборе данных.
  • Если у вас есть миллионы данных, то у нас есть 100 отсутствующих данных, которые мы можем просто игнорировать. но у вас есть только 1000 данных, и из 100 данных отсутствуют, мы не можем игнорировать эти данные.

Так что мы можем

  • игнорировать строку
  • заменить следующие/предыдущие данные в строке
  • заменить среднее/медиану
  • прогнозировать значения в соответствии с распределением.

Удаление шума:

Шум => Нежелательные данные: которые не связаны с нашей целью

Причины появления шумов: неправильный сбор данных

Преимущества удаления шумов:

  • Сократите время обучения
  • Уменьшить переоснащение модели
  • Увеличьте точность

Стандартизация:

  • Изменение масштаба объектов, чтобы они имели свойства распределения Гаусса.

Нормализация:

  • Min-Max масштабирование (сокращение данных до 0 до 1)
  • мы можем преобразовать набор данных в тот же формат, затем мы сравниваем поля данных и выявляем закономерности.

Выборка:

Разобраться с дисбалансом классов.

техника :

  • Передискретизация: увеличьте точку данных в классе меньшинства.
  • Недостаточная выборка: уменьшите точку данных в классе большинства.
  • SMOTE (метод передискретизации синтетического меньшинства):

  • Таким образом, мы можем создать гладкую точку данных.
  • Увеличение на 5 очков до 15 с помощью SMOTE.

Обнаружение выбросов:

  • Запись не следует форме или отношению, которое является остальной частью отношения.

2. Определите, что такое переменные:

Во-первых, мы хотим определить, какие переменные мы предполагаем использовать в этой модели. После поиска переменных, если у нас есть входной и выходной набор данных, мы хотим разделить 2 части в соответствии с их типами.

Два типа переменных: -

  1. Независимые переменные. Эта переменная не может изменять значения никакими усилиями. Мы используем эти переменные как ось X. например Влажность, давление, состояние почвы, идентификационный номер и т. д.
  2. Зависимые переменные: — они зависят от других, и мы можем указать их как предсказанные значения, которые мы надеемся предсказать. Таким образом, мы используем эти переменные как ось Y. например: Зарплата, Спрос, Ставка и т. д.

3. Определите, какие переменные являются числовыми, а какие нет

4. Особенности разработки:

Создание новой функции с использованием знаний предметной области.

корреляционный анализ;

  • Определите наиболее связанные функции с нашей целью.
  • Помогите удалить нежелательные и избыточные функции.

Особенности: числовой, категориальный, порядковый, дата-время, координата

Шаги:

  • Особенности мозгового штурма.
  • Создать функции.
  • Проверьте, как функции работают с моделью.
  • Начните сначала, пока функции не будут работать идеально.

6. Определите, какой тип алгоритма вы хотите использовать: построение модели

Контролируемое обучение :-

  • Если мы используем этот тип, у нас должны быть прошлые наборы данных, чтобы учиться и делать прогнозы на будущее.
  • Входная переменная (X) и выходная переменная (Y), и вы используете и алгоритм для функции отображения обучения от входа к выходу.

  • Неконтролируемое обучение. Если у вас нет прошлых наборов данных, мы можем использовать этот тип. Затем мы можем анализировать и группировать данные.
  • Обучение с подкреплением. Эта модель может обучаться в соответствии с прошлыми действиями и отзывами. Выходные данные зависят от состояния текущих входных данных, а Следующие входные данные зависят от выходных данных предыдущего ввода. как игра в шахматы.

7. Определите, какому алгоритму вы хотите следовать:

Контролируемое обучение :-

Можно разделить на 2 части.

  • Регрессия
  • Классификация

Регрессия:

  • если вы получаете числовые данные в качестве прогнозируемого значения, вы можете использовать этот тип.
  • например : предсказание жилья Цена, Температура и тому подобное.
  • Он имеет 2 Части.

Линейная регрессия:

Простая линейная регрессия:

  • Если у вас есть одна переменная как X, вы можете использовать это.

Множественная линейная регрессия:

  • Если у вас есть несколько переменных как X, вы можете использовать это.

Полиномиальная регрессия:

  • нелинейно разделимые данные

Логистическая регрессия:

результат (зависимая переменная) имеет только ограниченное число возможных значений.

исход носит категорический характер.

Например,

  • да нет,
  • правда/ложь,
  • красный/зеленый/синий,
  • 1-й/2-й/3-й/4-й и т.д.

Классификация:

Разделите данные на отдельные классы.

например : Цвет, форма, данные по категориям.

Он имеет 2 типа:

  • Древо решений
  • Машина опорных векторов

Обучение без учителя :-

Кластеризация:

Анализ групповых данных, которые не включают предварительно помеченные атрибуты класса.

Алгоритмы:

  • К-означает
  • Иерархическая кластеризация

Ассоциация:

Обнаружить вероятность совместного появления элемента в коллекции

Алгоритмы:

  • Априори
  • FP- Рост

e.g. :

  • 2 клиента покупают продукты, предскажите, какие продукты 3-й покупатель купит следующим.

Обучение с подкреплением:

  • Это обучение путем взаимодействия с пространством или окружающей средой.
  • Он выбирает свои действия на основе своего прошлого опыта, а также на основании нового выбора.

7. Настройка гиперпараметров:

попытайтесь определить комбинацию параметров.

Это зависит от выбранного алгоритма.

e.g. :

  • Случайный лес: отдел дерева
  • № параметра

8. Оценка модели:

  1. Смещение VS Дисперсия:

Предвзятость :

  • Модель с большим смещением слишком проста.
  • Низкое количество предсказаний.
  • Приводит к высокой ошибке на данных обучения и тестирования.

Дисперсия:

  • Очень сложная модель
  • Имеет очень большое количество предикторов.
  • Приводит к высокой ошибке при тестировании данных.
  • Приводит к точному прогнозу на тестовых данных.

2. Подгонка и подгонка:

6. Ограничение машинного обучения:

не удалось решить следующие:

  • Критическая проблема ИИ
  • Обработка естественного языка
  • Распознавание изображений
  • бесполезно при работе с многомерными данными (большое количество входов и выходов)