Введение в машинное обучение

машинное обучение фокусируется на извлечении знаний из данных. Его также называют прогностическим анализом или статистическим обучением. Магия машинного обучения сегодня заключается в том, чтобы сделать жизнь проще и удобнее.

Например,

автоматическая рекомендация фильма для просмотра, рекомендация продуктов для покупок в Интернете, распознавание ваших друзей по вашим фотографиям, настоящий домашний помощник, кроме того, он может анализировать последовательности ДНК и предлагать персонализированные методы лечения рака, и многое другое достигается благодаря использованию различных моделей машинного обучения. .

Почему машинное обучение сегодня?

Когда-то интеллектуальные приложения использовали жестко закодированные правила принятия решений «если» и «иначе» для обработки данных или адаптации к пользовательскому вводу. Подумайте о спам-фильтре, который работает для фильтрации соответствующих входящих сообщений электронной почты в папку со спамом. Вы можете составить черный список слов, из-за которых любое письмо будет помечено как спам. Это был пример более ранних правил интеллектуальной системы, которые могли быть возможны в некоторых приложениях, особенно в тех, в которых люди хорошо понимают моделируемый процесс.

Однако использование закодированных вручную правил для принятия решений имеет два основных недостатка:

Логика, необходимая для принятия решения, специфична для одной области и задачи. Даже незначительное изменение задачи может потребовать перезаписи всей системы.
Разработка правил требует глубокого понимания того, как решение должно приниматься человеком-экспертом.

Примером того, где этот подход не сработает, является компьютерное зрение (обнаружение лиц на изображениях). Основная проблема в том, что то, как компьютеры воспринимают пиксели изображения, сильно отличается от того, как воспринимается лицо. Разница в представлении делает практически невозможным для человека придумать хороший набор правил для описания того, что представляет собой лицо на цифровом изображении.
Однако с помощью машинного обучения просто представить программу с большой коллекцией изображений лиц достаточно, чтобы алгоритм определил, какие характеристики необходимы для идентификации лица.

Проблемы, которые может решить машинное обучение.

Наиболее успешными алгоритмами машинного обучения являются те, которые автоматизируют процесс принятия решений путем обобщения известных и неизвестных примеров. Эти два процесса называются обучением с учителем и обучением без учителя.

Контролируемое обучение

При обучении с учителем пользователь предоставляет алгоритму пару входных данных и желаемый результат, и алгоритм находит способ получить желаемый результат с учетом ввода.

Что заставляет машину производить желаемый результат на входе, которого никогда раньше не было, без помощи человека. вернемся к нашему примеру классификации спама с использованием машинного обучения. Пользователь предоставляет алгоритму
большое количество электронных писем (которые являются входными данными) вместе с информацией о том, являются ли какие-либо из этих электронных писем спамом (что является желаемым вывод). Получив новое электронное письмо, алгоритм затем сделает прогноз относительно того, является ли новое электронное письмо спамом. Его называют контролируемым, поскольку он предоставляет алгоритм в виде желаемого результата для каждого примера, на котором они учатся. Пример задачи обучения с учителем.

Определение почтового индекса по рукописным цифрам на конверте.

Здесь ввод — это отсканированный почерк, а желаемый вывод — фактические цифры почтового индекса. Чтобы создать набор данных для построения модели машинного обучения, нужно собрать много конвертов. Затем вы можете самостоятельно прочитать почтовые индексы и сохранить цифры в качестве желаемых результатов.

Определение доброкачественности опухоли на основе медицинского снимка.

Здесь входом является изображение, а выходом является доброкачественная опухоль. Чтобы
создать набор данных для построения модели, вам потребуется база данных медицинских изображений. Вам также необходимо мнение эксперта, поэтому врач должен просмотреть все изображения и решить, какие опухоли доброкачественные, а какие нет. Может даже потребоваться дополнительная диагностика помимо содержимого изображения, чтобы определить, является ли опухоль на изображении злокачественной или нет.

Обнаружение мошеннических действий при транзакциях по кредитным картам.

Здесь входными данными являются записи о транзакции по кредитной карте, а выходными данными
является вероятность того, что она мошенническая или нет. Предполагая, что вы являетесь лицом, распространяющим кредитные карты, сбор набора данных означает сохранение всех транзакций и запись, если пользователь сообщает о какой-либо транзакции как о мошенничестве.

Обучение без учителя

В этом алгоритме обучения известны только входные данные, и никакие известные выходные данные не передаются алгоритму. Хотя есть много успешных применений этих методов, их обычно сложнее понять и оценить.

Определение тем в наборе сообщений блога.
Если у вас есть большая коллекция текстовых данных, вы можете обобщить ее и
найти в ней распространенные темы. Вы можете не знать заранее, что это за темы
и сколько тем может быть. Следовательно, нет никаких известных выходов.

Сегментирование клиентов на группы со схожими предпочтениями.
Имея набор записей о клиентах, вы можете определить, какие клиенты похожи и существуют ли группы клиентов со схожими предпочтениями. Для торгового сайта это могут быть «родители», «книжные черви» или «геймеры». Поскольку вы не знаете заранее, какими могут быть эти группы или даже сколько их, у вас нет известных выходных данных.

как в контролируемых, так и в неконтролируемых задачах обучения важно иметь представление ваших данных таким образом, чтобы компьютер мог их понять. очень полезно думать о ваших данных как о таблице со строками и столбцами.

Дисциплина, связанная с ИИ

.Философия
.Математика
.Вероятность и статистика (интеллектуальный анализ данных)
.Нейронаука
.Вычислительная техника
.Лингвистика

Введение в машинное обучение

Вопросы по теме