Введение в машинное обучение

Машинное обучение — это подмножество искусственного интеллекта (ИИ), которое ориентировано на создание приложений, которые изучают данные и со временем улучшают свою точность без программирования для этого. Эти алгоритмы предназначены для обучения и улучшения с течением времени, когда они подвергаются воздействию новых данных. Это позволяет компьютерам или машинам принимать решения на основе данных.

Пример 1. На основании истории болезни пациента врач может предсказать, страдает ли пациент каким-либо заболеванием или нет. Точно так же машины пытаются учиться самостоятельно, без явного программирования, просто приобретая опыт. Чем больше опыта, тем лучше точность.

Пример 2. В детстве вы могли видеть изображение дерева, и ваши родители или учителя говорили вам, что это дерево, и у него есть некоторые особенности, такие как листья, стволы. , корни, стебли и т. д. Теперь всякий раз, когда ваш мозг сталкивается с такими особенностями, он автоматически воспринимает их как дерево, потому что ваш мозг уже узнал, что это дерево. Точно так же мы продолжаем передавать изображения дерева на компьютер с тегом «дерево», пока машина не изучит все функции, связанные с деревом.

Давайте лучше поймем это с помощью изображений ниже

Мы будем передавать изображения дерева на компьютер с тегом «дерево», пока машина не изучит все функции, связанные с деревом.

Как только машина изучит все функции, связанные с деревом, мы снабдим ее новыми данными, чтобы определить, сколько она изучила.

По сути, обучающие данные передаются машине, чтобы она изучила все функции, связанные с обучающими данными. После завершения обучения машине предоставляются тестовые данные, чтобы определить, насколько хорошо машина научилась.

Типы машинного обучения

Контролируемое обучение

При обучении с учителем машина уже знает, как должен выглядеть правильный вывод. Они уже знают, что существует связь между входной и выходной переменной.

Пример. У вас есть набор данных о домах с такими характеристиками, как местоположение, квадратные футы, цены и т. д., и вы хотите узнать цену дома, который вам еще неизвестен. Машина будет прогнозировать цену нового дома на основе предоставленного набора данных.

Типы контролируемого обучения

Классификация. Классификация — это процесс поиска модели, которая разделяет входные данные на несколько дискретных классов или меток. Он предсказывает дискретные значения, такие как True или False, Male или Female, Spam or Not Spam, Cold or Hot и т. д.

Алгоритмы классификации:

  • Логистическая регрессия
  • KNN для классификации
  • Машина опорных векторов: SVC (классификатор опорных векторов)
  • Классификация дерева решений
  • Случайная классификация леса
  • Наивный Байес

Регрессия.Регрессия — это процесс поиска модели, которая прогнозирует непрерывное значение на основе входных переменных. Он прогнозирует непрерывные значения, такие как температура, цена, зарплата, возраст и т. д.

Алгоритмы регрессии:

  • Простая линейная регрессия
  • Множественная линейная регрессия
  • Полиномиальная регрессия
  • KNN для регрессии
  • Машина опорных векторов: SVR (регрессор опорных векторов)
  • Регрессия дерева решений
  • Случайная лесная регрессия

Обучение без учителя

При неконтролируемом обучении машина не знает, каков правильный результат. Это позволяет нам подходить к проблемам практически без представления о том, как должны выглядеть наши результаты. Мы можем просто получить структуру из данных, сгруппировав данные на основе взаимосвязей между переменными в наборе данных.

Пример. У вас есть набор отзывов клиентов о конкретном продукте, и вы хотите сделать вывод о взаимосвязях и составить разные группы похожих отзывов. Эти кластеры могут помочь разработать стратегии, которые сделают клиентов счастливыми.

Типы обучения без учителя

Кластеризация. Кластеризация — это процесс группировки объектов в кластеры. Объекты с наибольшим сходством находятся в одной группе, а объекты с меньшим сходством или без сходства - в другой группе.

Алгоритмы кластеризации:

  • Кластеризация K-средних
  • Кластеризация K-режимов
  • Иерархическая кластеризация
  • ДБСКАН

Ассоциация.Ассоциация — это процесс, который используется для поиска взаимосвязей между переменными в большой базе данных. Он используется для обнаружения набора элементов, которые встречаются вместе в наборе данных. Например, люди, которые покупают товары А, также склонны покупать товары Б.

Этапы машинного обучения

1. Сбор данных.Сбор данных — это процесс заполнения набора данных правильными и важными функциями. При получении данных нам нужно иметь достаточно заполненных функций для правильного обучения модели обучения.

2. Очистка данных и предварительная обработка.Очистка данных — критически важный процесс для успеха любой модели машинного обучения. Это процесс, используемый для определения неточных, неполных или необоснованных данных, а затем для повышения качества путем исправления обнаруженных ошибок, сокращения количества ошибок и улучшения качества данных. Предварительная обработка данных — это метод, который используется для преобразования необработанных данных в полезный и эффективный формат. Наборы данных могут содержать символы, строки и нечисловые значения. Алгоритм машинного обучения не может напрямую использовать эти значения. Следовательно, эти значения необходимо преобразовать в числовые значения.

3. Исследовательский анализ данных.Исследовательский анализ данных — это процесс анализа и визуализации наборов данных для обобщения их основных характеристик, часто с помощью визуальных или графических методов. Цель состоит в том, чтобы получить уверенность в данных до такой степени, что они будут готовы к использованию алгоритма машинного обучения.

4. Обучение модели.Обучение модели машинного обучения включает предоставление алгоритму обучения данных для обучения. Обучающие данные должны содержать правильный ответ, известный как целевая переменная. Алгоритм обучения находит шаблоны в обучающих данных, которые сопоставляют атрибуты входных данных с целью, то есть с ответом, который вы хотите предсказать. Затем он выводит модель машинного обучения, которая фиксирует эти шаблоны.

5. Тестирование модели.Тестирование алгоритма машинного обучения включает использование новых точек данных для обученного алгоритма и прогнозирование выходных результатов. Набор тестовых данных не зависит от набора обучающих данных и следует тому же распределению вероятностей, что и набор обучающих данных. Если модель соответствует обучающему набору данных, она также соответствует тестовому набору данных.

6. Оценка модели.Оценка модели машинного обучения — это процесс оценки точности и производительности модели на невидимых данных. Вам нужно оценить производительность модели, чтобы понять, насколько хороша ваша модель.

Следующий блог: Простая реализация линейной регрессии в Python

Привет, ребята! Я Харшита. Я изучаю науку о данных и пытаюсь внести свой вклад в сообщество, делясь своими знаниями. Пожалуйста, поделитесь этим с кем-то, кого вы знаете, кто пытается изучить машинное обучение. Буду признателен за ваши комментарии, предложения или отзывы. Спасибо.

Идентификатор электронной почты: [email protected]

LinkedIn:www.linkedin.com/in/harshita-11