Введение в машинное обучение

Краткий обзор области машинного обучения

Изучение машинного обучения связано с тем, как компьютеры учатся на основе данных. Он считается ветвью искусственного интеллекта. Алгоритмы машинного обучения используются в самых разных областях, включая компьютерное зрение и здоровье. Некоторые реализации используют данные и нейронные сети для имитации работы мозга.

Машинное обучение — это область, в которой используются многочисленные способы обучения компьютеров выполнению задач. Это влечет за собой обучение компьютеров на основе доступных данных для выполнения определенных задач. Для базовых задач легко написать алгоритмы, которые инструктируют компьютер о том, как выполнять все процессы, необходимые для решения поставленной задачи.

Артур Сэмюэл, сотрудник IBM, придумал термин «машинное обучение» в 1959 году. В то время использовался термин «самообучающиеся компьютеры».
Современное машинное обучение преследует две цели: классифицировать данные и предсказывать будущие последствия.

Исследователи изначально были заинтересованы в том, чтобы позволить машинам учиться на данных в первые дни искусственного интеллекта. К 1980 году экспертные системы взяли верх над ИИ, и статистика потеряла популярность. Машинное обучение, которое было реструктурировано в отдельную область, начало развиваться в 1990-х годах. Он сместил акцент с создания искусственного интеллекта на решение решенных практических задач. Машинное обучение учится и прогнозирует на основе пассивных наблюдений, тогда как ИИ требует, чтобы агент взаимодействовал с окружающей средой, чтобы учиться.

Машинное обучение и интеллектуальный анализ данных часто используют одни и те же методологии и имеют существенное совпадение. Интеллектуальный анализ данных связан с обнаружением в данных ранее неизвестных характеристик. В машинном обучении производительность часто измеряется с точки зрения способности воспроизводить известную информацию; в интеллектуальном анализе данных основная цель состоит в том, чтобы раскрыть ранее неизвестные знания.

Функции потерь выражают разницу между предсказаниями модели и фактическими проблемными случаями. Модели учат минимизировать некоторую функцию потерь на тренировочном наборе экземпляров, поэтому они тесно связаны с оптимизацией.

Характеристика обобщения различных алгоритмов обучения является текущим предметом исследования, особенно для алгоритмов глубокого обучения.

Машинное обучение и статистика — тесно связанные темы с уникальными целями.
Статистика делает выводы о тенденциях населения на основе выборки, тогда как машинное обучение выявляет обобщенные шаблоны прогнозов.
Некоторые статистики интегрируют подходы машинного обучения, в результате чего получается смешанная область знаний. как статистическое обучение.

Основная цель учащегося — обобщить свой опыт.
Под обобщением понимается способность обучающейся машины точно выполнять новые, ранее встречавшиеся примеры/задачи.
Вычислительное исследование алгоритмов машинного обучения и их производительности — это область теоретической информатики.

Классификация методов машинного обучения:

Контролируемое обучение:

Цель состоит в том, чтобы компьютер выучил общее правило, которое сопоставляет входные данные с желаемыми выходными данными. Алгоритмы обучения с учителем создают математическую модель набора данных, который включает в себя входные данные, а также желаемые выходные данные.
Метод сможет точно прогнозировать выходные данные для входных данных, которые не были частью обучающих данных, если функция является оптимальным.
Обучение на основе подобия – это контролируемое машинное обучение, тесно связанное с регрессией и классификацией.

2. Обучение без учителя:

Компьютеру не предоставляются никакие метки, что позволяет ему идентифицировать структуру своих данных и воздействовать на нее как на средство для достижения цели. Алгоритмы обучения без учителя используют набор данных, который содержит только входные данные, и определяют структуру данных, например группировку точек данных или кластеризацию. Они учатся на немаркированных, классифицированных или категоризированных тестовых данных. Кластеры — это разделение наблюдений на подмножества, известные как кластеры, на основе заранее определенных критериев.

3. Обучение с подкреплением:

Обучение с подкреплением — это классификация машинного обучения, которая касается того, как программные агенты должны вести себя в данной среде. Многие другие области, в том числе теория игр и исследование операций, изучают эту тему. Алгоритмы обучения с подкреплением используются в беспилотных автомобилях или при обучении игре против человека-противника.

Десять наиболее часто используемых алгоритмов машинного обучения

Линейная регрессия

Значение одной переменной можно предсказать с помощью линейного регрессионного анализа на основе значения другой переменной. С помощью этого метода анализа оцениваются коэффициенты уравнения, содержащего одну или несколько независимых переменных. Линейная регрессия используется для подбора прямой линии или поверхности, которая минимизирует разницу между ожидаемыми и фактическими данными.

2. Логистическая регрессия

Логистическая регрессия — это статистическая модель, которая часто используется для классификации и прогнозной аналитики. Основываясь на заданном наборе данных независимых факторов, он оценивает вероятность возникновения события, такого как голосование или отказ от голосования. Поскольку результат является вероятностью, зависимая переменная имеет диапазон от 0 до 1.

3. Дерево решений

Алгоритм дерева решений относится к семейству алгоритмов обучения с учителем. Его также можно использовать для решения задач регрессии и классификации.
Целью использования дерева решений является построение обучающей модели, которая может предсказать класс или значение целевая переменная.

4. Алгоритм SVM

Машина опорных векторов, или SVM, — это популярный подход к обучению с учителем для задач классификации и регрессии. Цель алгоритма SVM — найти оптимальную линию или границу решения для классификации n-мерного пространства.

5. Наивный алгоритм Байеса

Теорема Байеса лежит в основе алгоритма Наве-Байеса, который используется в широком диапазоне задач классификации.
Он эффективно используется в различных приложениях, но лучше всего подходит для задач обработки естественного языка.

6. Алгоритм КНН

Одним из самых простых алгоритмов машинного обучения является K-ближайший сосед.
Алгоритм KNN поддерживает все доступные данные и использует сходство для классификации новых точек данных. Его можно использовать как для регрессии, так и для классификации, но обычно он используется для задач классификации.

7. Кластерный алгоритм K-средних

Цель кластеризации k-средних состоит в том, чтобы разделить n наблюдений на k групп.
Каждое наблюдение является частью кластера с ближайшим средним значением. В результате этого пространство данных разбивается на ячейки Вороного. Задача сложна в вычислительном отношении, однако эффективные решения быстро сходятся к локальному оптимуму.

8. Алгоритм случайного леса

Случайный лес — это тип контролируемого алгоритма машинного обучения, который обычно используется в задачах классификации и регрессии. Он строит деревья решений из нескольких выборок, используя большинство голосов для классификации и среднее значение для регрессии. Он может работать с наборами данных, которые содержат как непрерывные, так и категориальные переменные.

9. Алгоритмы уменьшения размерности

Часто в задачах классификации машинного обучения слишком много характеристик. Чем больше качеств, тем сложнее визуализировать и работать на обучающей выборке. В этом случае используются методы уменьшения размерности. Снижение размерности — это процесс уменьшения количества рассматриваемых случайных величин путем установления набора основных переменных.

10. Алгоритмы повышения

Boosting — это стратегия машинного обучения для уменьшения ошибок при прогнозном анализе данных. Специалисты по данным используют помеченные данные, чтобы научить алгоритмы машинного обучения делать обоснованные суждения о неразмеченных данных. Усиление попыток решить эту проблему путем последовательного обучения многих моделей, чтобы повысить общую точность системы.

Десять лучших библиотек Python для машинного обучения

Python стал идеальным языком для науки о данных, машинного обучения, искусственного интеллекта и анализа данных. Платформенная нейтральность и простота Python делают его фаворитом среди инженеров по машинному обучению. Специалисты по данным часто используют компьютерный язык Python. Гибкость Python позволяет профессионалам в области машинного обучения выбирать язык программирования в зависимости от характера задания.

Ниже приведен список десяти самых популярных библиотек Python для машинного обучения.

пустышка
панды
matplotlib
научное обучение
тензорный поток
Керас
теано
питорч
острый
морской

Десять лучших бесплатных курсов по машинному обучению

Практическое глубокое обучение для программистов - Fastai
Ускоренный курс машинного обучения - Google
Подружиться с машинным обучениемg – YouTube
Научный набор Узнай за 3 часа - YouTube
Глубокое обучение с PyTorch - YouTube
Полный курс машинного обучения - YouTube
Машинное обучение с помощью Python - IBM Cognitive Class
Машинное обучение — уменьшение размерности — IBM Cognitive Class
Машинное обучение с помощью R - IBM Cognitive Class
Машинное обучение с Apache SystemML - IBM Cognitive Class

Благодарю вас за чтение моей статьи на Medium. Пожалуйста, оставьте свои комментарии с вашими идеями и отзывами. Подпишитесь на меня, если хотите узнать больше.