За последние несколько лет я видел много проектов по машинному обучению на конкурсах и соревнованиях. Тенденция искусственного интеллекта растет в геометрической прогрессии, но все же общественность не понимает, как он работает. Этот тип исследования обычно хвалят, потому что он выглядит круто, но это просто парадигма для решения конкретных проблем с использованием статистики. Он не дает волшебного «правильного» ответа.

Основа машинного обучения на вероятности и статистике. Когда мы вводим данные, компьютер находит статистические отношения между ними и предсказывает, что может произойти с другими наборами данных. Таким образом, это означает, что для более глубокого изучения машинного обучения необходимо проанализировать, насколько хорошо обучены модели, а также статистику, стоящую за ними.

Машинное обучение не интеллектуально. Представьте, что если я скормлю прошлый результат лотереи, а машинное обучение волшебным образом найдет связь и выдаст прогнозируемый результат следующей лотереи, это будет нелепо. К сожалению, это не так.

Я думаю, что пора прекратить копирование шаблона кода, вводить данные и утверждать, что это проект. Обученная модель - это не что иное, как вероятностная функция, которая дает ожидаемые ответы. В большинстве случаев нужна только модель, если она дает точный результат. Итак, решающим моментом здесь является то, как соответствующим образом обучить модель для достижения максимальной точности с ограниченным объемом данных.

Больше точности = лучше?

Чтобы получить точные ответы, нужно не просто вбрасывать данные и надеяться на результат. Важно рассмотреть возможность увеличения выборки данных, поскольку весь процесс основан на статистике, а это означает, что он хорошо работает только с большим объемом данных. Также необходимо учитывать различные модели, методы и функции, подходящие для наборов данных, так как это поможет минимизировать нежелательную ошибку.

Как бы то ни было, исследователи не должны стремиться к достижению максимальной корректности. Иногда точность модели сопровождается переобучением, что означает, что модель неприменима в реальном мире, поскольку она не может обобщить результат. Жизненно важно научиться замечать переоснащение и не допускать, чтобы модель слишком точно соответствовала экземпляру проблемы.

Если машинное обучение - это правильность, есть еще много способов измерить правильность. Точность, достоверность и полнота - неизбежные простые меры, которые всегда должны учитываться при расчетах. Хотя обычно он включается в расчет автоматически, исследователи должны знать о различиях, чтобы не упустить ни один фактор.

Различия в точности и достоверности нетрудно понять (см. Рисунок), но не в случае исчерпывающих. Рассмотрим этот пример. Медицинской машине необходимо разделить людей на две группы: здоровых и больных раком. Допустим, есть 1000 образцов, и 10 из них имеют рак. Система A может сообщить, что 3 из них болеют раком, с точностью 100%, поскольку она не дает неверных результатов. В то же время Система Б сообщила, что 15 из них болеют раком. Система B в данном случае имеет более низкую точность, но ей удалось охватить всех больных раком, когда Система A покидает 7 из них из-за лечения, которое они должны получить. Мы говорим, что Система Б более всеобъемлющая.

Этот пример также подразумевает, что иногда полнота лучше точности.

Больше, чем просто правильность?

В машинном обучении важна не только мера правильности. Когда такая система работает с принятием решений по важным аспектам человеческой жизни, машина также должна быть объяснимой. Например, было бы несправедливо использовать ИИ в суде для осуждения человеческих действий. Если создатели не могут подробно рассказать о механизме ИИ, это все равно что верить кому-то интуитивно. Если ИИ не может найти доказательства в поддержку своего решения, даже если у него есть доступ к информации и он решает честно, ему не следует доверять.

Чтобы прояснить это, возьмем классическую задачу о тележке. Проблема троллейбуса - это известная этическая дилемма, когда пять человек привязаны к одной железной дороге, по которой движется троллейбус, и вы можете переключить его на другой путь, но в любом случае на железной дороге есть человек. На эту проблему невозможно дать однозначный ответ даже людям.

На данный момент проблема с тележкой может выглядеть немного вне контекста, но она становится более осмысленной. Представьте, что у меня есть беспилотный автомобиль, и я регулярно на нем пользуюсь. Случайно человек идет впереди, и есть два варианта. Если система решит увернуться от этого человека, она разобьет другого человека насмерть. Также невозможно вовремя остановить машину. Это точно так же, как и проблема с тележкой.

Здесь независимо от того, какой выбор сделает система, для нее нет приемлемой причины, и будет хуже, если компания не сможет объяснить, что происходит внутри системы. Компания не может просто сказать, что автомобиль выбирает, исходя из своего чутья. Кроме того, существует множество производных от проблемы. Рассмотрение пожилых людей, родственников или младенцев вместо обычных людей могло бы стать более спорным вопросом.

Как правило, любой вид искусственного интеллекта не может и не должен допускать судебных решений. Справедливость приходит вместе с моралью, определенной человеком, которая формально не выражается. Детерминированной машине трудно (почти невозможно) понимать мораль и мыслить соответственно.

В конце концов, я считаю, что начинать проект машинного обучения - это здорово. Машинное обучение очень быстро набирает популярность. Это также впечатляющая технология, которая изменила наш взгляд на определенные проблемы. Однако также необходимо понять механизм, прежде чем углубляться в код.