Краткий обзор машинного обучения

Изучите основы машинного обучения и искусственного интеллекта, а также их потенциальные проблемы и предостережения.

Когда мы случайным образом ищем ключевые слова в Интернете, мы часто сталкиваемся с «машинным обучением» и «глубоким обучением», а также с тем, как они революционизируют наш образ жизни. В настоящее время машинное обучение используется почти повсеместно: от беспилотных автомобилей до обнаружения спама в электронной почте, систем рекомендаций, которые мы видим в Netflix и Amazon, до обнаружения мошенничества с кредитными картами, используемого банками. и так далее. Список можно продолжать и продолжать с созданием потенциальных новых приложений. Поэтому очень важно быть в курсе последних тенденций и понимать, что такое машинное обучение на самом деле, и получить более широкое представление о некоторых типах машинного обучения. В этой статье я бы объяснил машинное обучение и различные категории машинного обучения. Кроме того, мы также обсудим некоторые основные ограничения машинного обучения.

Что такое машинное обучение?

Машинное обучение — это процесс обучения компьютеров обучению на основе данных и принятию решений без явного программирования для этого после обучения. Как правило, мы должны сначала обучить модели машинного обучения, прежде чем мы сможем заставить их принимать решения самостоятельно. Поэтому одной из самых важных вещей, необходимых для алгоритмов машинного обучения, являются данные. Без данных нет сущности алгоритмов машинного обучения. Основываясь на данных, которые мы передаем моделям машинного обучения, они будут брать данные и понимать их, прежде чем давать прогнозы для новых данных. Поэтому мы должны предоставлять данные, отражающие реальный мир. Это связано с тем, что модели машинного обучения будут полностью зависеть от данных, которые мы предоставляем моделям для прогнозирования будущего.

Что обычно происходит в машинном обучении, так это набор математических операций, включающих умножение произведения, масштабирование функций, нормализацию и так далее. Следовательно, данные, которые мы передаем алгоритмам машинного обучения, должны быть в форме векторов или чисел, а не текста или других форм, которые машина не может понять. Некоторые из примеров, когда машина не может понять данные, — это текст и алфавиты. Поэтому нам приходится преобразовывать весь текст и алфавиты в виде чисел и скармливать их моделям машинного обучения для обучения и предсказаний.

Подход машинного обучения

Наиболее типичный подход к машинному обучению состоит в том, чтобы сначала разделить наши данные на два набора: train и test set. Мы должны сначала преобразовать все данные в виде математических векторов и разделить данные. После разделения данных обучающий набор подается в модели машинного обучения. После достаточного количества итераций или эпох (одна эпоха отправляет все обучающие данные один раз) мы будем использовать алгоритмы машинного обучения для прогнозов из тестового набора. Затем мы увидим, насколько хорошо модели машинного обучения работают на тестовом наборе (очень важно, чтобы модели машинного обучения хорошо работали на тестовом наборе).

Переоснащение

Существует вероятность того, что модели машинного обучения действительно хорошо работают на тренировочном наборе и не так хорошо на тестовом наборе. Это пример переоснащения. В этом сценарии модели машинного обучения слишком многому научились на данных обучения, не имея возможности обобщать. Следовательно, они очень хорошо подходят для обучающих данных и могут давать хорошие прогнозы на этом наборе. Однако, когда мы пытаемся получить прогнозы из тестового набора, модели машинного обучения терпят неудачу, поскольку они изучили и подогнали свои параметры к обучающему набору, а не смогли обобщить тестовые данные (новые данные). Поэтому мы всегда должны учитывать точность не только тренировочного, но и тестового набора.

Подгонка

Иногда модели машинного обучения не очень хорошо согласуются с самими обучающими данными. В результате они очень плохо работают с обучающими данными, когда мы рассматриваем некоторые показатели, такие как точность, полнота и точность в случае классификации. задания. В случае задач регрессии они могут плохо работать с такими показателями, как среднеквадратичная ошибка (RMSE), среднеквадратическая ошибка (MSE) и абсолютное среднее значение. ошибка (MAE). Это также приводит к плохой производительности на тестовом наборе. Модели машинного обучения плохо работают с обучающими данными, что может быть связано с недостатком данных, некоррелированными функциями, менее сложной моделью и т. д. Поэтому мы должны обеспечить максимально полное обучение моделей машинного обучения и убедиться, что они хорошо работают не только с обучающими данными, но и с тестовыми данными соответственно.

Почему машинное обучение стало популярным в последние годы?

Алгоритмы машинного обучения были предложены еще в далеком прошлом вместе с нейронными сетями. Однако в те дни не было достаточно данных для использования этих алгоритмов. Вдобавок к этому вычислительная мощность, необходимая для запуска этих алгоритмов, была в значительной степени ограничена. Однако сегодня в компаниях генерируется много данных, а доступные вычислительные ресурсы поражают. Взглянув на некоторые услуги, предоставляемые Google (облако Google) и Amazon (Amazon Web Services), мы получим хорошее представление о вычислительной мощности, которой мы располагаем в настоящее время. Мы могли бы использовать все эти технологии, не настраивая инфраструктуру (аппаратное обеспечение) для их работы, поскольку это предоставляется вышеупомянутыми компаниями. Таким образом, существует огромный спрос на машинное обучение и глубокое обучение. Многие компании вкладывают огромные суммы денег в исследования в области машинного обучения, чтобы повысить свою производительность и увеличить доход от продуктов, использующих машинное обучение.

В мире, где у нас много данных, важно понимать машинное обучение и глубокое обучение, чтобы получать прогнозы для различных вариантов использования. Глядя на данные, которые у нас есть, и на то, как компании используют эти данные, мы понимаем, что чем больше мы изучаем модели машинного обучения, тем лучше мы сможем создать ценность для компании и обеспечить получение ею прибыли.

Типы машинного обучения

Обучение с учителем. В этом типе машинного обучения нам известны метки выходных данных, и мы будем обучать модели машинного обучения и оценивать их на основе сгенерированных ими выходных данных и сравнивать их с фактическими выходными данными. Это гарантирует, что мы обучаем модели машинного обучения на основе известных нам выходных значений, и, таким образом, мы можем оценить производительность моделей машинного обучения. Например, если мы хотим прогнозировать цены на дома на основе предыдущих данных, которые содержат входные данные и выходные данные о ценах на дома, мы сможем обучить модели машинного обучения и оценить их результаты с фактическими выходными ценами на дома. Это гарантирует, что мы обучаем модели машинного обучения до совершенства, и это называется обучением с учителем.
Неконтролируемое обучение. При таком подходе к машинному обучению мы не знаем результатов и обучаем модели машинного обучения, чтобы они могли идентифицировать закономерность и понимать данные. Одним из популярных примеров обучения без учителя является сегментация клиентов, когда мы группируем клиентов на основе их поведения в определенных сценариях.
Полууправляемое обучение. При таком подходе у нас будут данные с некоторым выводом для нескольких точек данных, но без вывода для остальных оставшихся данных. Мы будем обучать модели машинного обучения на обучающих данных, которые имеют выходные данные, а затем попросим модели классифицировать и получить шаблон самостоятельно для данных, у которых нет выходных данных. Одним из примеров использования полуконтролируемого обучения является классификация текстовых документов. Сначала мы будем тренироваться с известными выходными данными и попросим имеющиеся модели машинного обучения сегментировать и классифицировать оставшиеся данные, где выходные данные неизвестны.

Каковы ограничения машинного обучения?

Одним из ограничений является проклятие размерности. Это означает, что когда мы наделяем модели машинного обучения большим количеством функций, мы заставляем модели тратить больше времени на обучение и реализацию. Это часто приводило к слабой производительности. В результате возникает задержка в обучении, что может привести к увеличению времени разработки для производства моделей машинного обучения.
Переоснащение может быть проблемой в машинном обучении. Это процесс, в котором модели машинного обучения могли бы очень хорошо предсказать выходные данные для обучающих данных, но когда дело доходит до тестовых данных, они часто не могут обобщить новые данные, которые мы будем использовать в качестве тестового набора. Это известно как переобучение.

Заключение

Мы рассмотрели машинное обучение и типы машинного обучения. Мы видели некоторые ограничения машинного обучения при его реализации в реальной жизни. Мы также рассмотрели различные типы машинного обучения в широкой категории. Надеюсь, эта статья дала хорошее представление о машинном обучении. Спасибо.