Как машины могут помочь вам найти место для парковки, отличное место для ночлега и следующее лекарство, которое вы можете принять

автор: Riley Parsons
Стажер биоинформатики, twoXAR

Все эти три достижения сегодня возможны благодаря машинному обучению.

Машинное обучение продолжает разрушать рынки и менять повседневную жизнь людей. Тем не менее, общественность далека от реальной технологии, которая приводит к этим изменениям. Для многих идея машинного обучения может вызвать образы сложных математических формул и разумных роботов. На самом деле, многие из общих идей, лежащих в основе машинного обучения, доступны более широкой аудитории. Понимание основных концепций в этой области может помочь развеять распространенные заблуждения и построить интуицию на предмет того, что происходит «под капотом».

Прежде чем анализировать основные темы в этой области исследования, необходимо обратиться к терминологии, которая ее окружает. Тема машинного обучения окружена смесью модных словечек и маркетинговых терминов (например, искусственный интеллект, нейронные сети и глубокое обучение). Эти слова, как правило, затемняют реальную науку и ограничивают более широкое понимание. Хотя такие термины, как «искусственный интеллект», часто смешивают с «машинным обучением», в этой статье будет использоваться один и тот же язык. «Машинное обучение» является ярким описанием фундаментальных процессов, лежащих в основе этой междисциплинарной области, и поэтому будет использоваться для ее описания.

Фонды

Идея машинного обучения не нова — на самом деле она была впервые предложена стэнфордским профессором Артуром Сэмюэлем в 1959 году. Говорят, что Самуэль описал ее как область исследования, которая дает компьютерам возможность учиться, не будучи явно запрограммировано.

Алгоритмы машинного обучения решают задачи оптимизации. В частности, они пытаются определить статистическую модель, которая лучше всего описывает набор данных. Машины изучают лучшую модель путем повторной итерации по предыдущему результату. Возможно, самой известной статистической моделью является линейная регрессия или создание линии наилучшего соответствия. В то время как оптимизация модели линейной регрессии в двух измерениях (например, кровяное давление по сравнению с возрастом) тривиальна, создание модели для данных, которая содержит больше переменных, требует большей вычислительной мощности. Поскольку закон Мура продолжает действовать, компьютеры стали быстрее решать эти задачи оптимизации. По мере повышения эффективности машинного обучения оно продолжит проникать в отрасли и разрушать традиционные парадигмы.

Данные

Поток данных из исследовательских баз данных, правительств и подключенных устройств привел к росту машинного обучения в 21 веке. Алгоритмы машинного обучения живут и умирают в зависимости от данных, которые они потребляют. Из-за этого особое внимание уделяется управлению этими данными, на которых учатся алгоритмы. Данные извлекаются, преобразуются и загружаются в стандартизированную и предсказуемую структуру или «схему» до того, как они будут введены в алгоритм.

Калифорнийский университет в Ирвайне хранит множество наборов данных в своем Репозитории машинного обучения. Единый набор данных включает информацию о больных сахарным диабетом, поступивших в 130 больниц США за 10 лет. Данные содержат ряды данных о пациенте, каждый столбец которых представляет признак или атрибут пациента. Эти особенности включают расу, пол, возраст и время, проведенное в больнице. Данные также содержат информацию о лекарствах, которые пациент принимал на момент госпитализации. Эту информацию можно использовать в качестве цели для алгоритма машинного обучения. Полученная статистическая модель будет пытаться предсказать, какое лекарство пациенту с диабетом, вероятно, будет назначено на основе других характеристик.

Хотя это выходит за рамки этой статьи, важно отметить, что существует подкатегория неконтролируемых алгоритмов машинного обучения. Во втором абзаце Эта статья хорошо описывает разницу между контролируемым и неконтролируемым машинным обучением.

Как только данные находятся в структуре, понятной алгоритмам, остается сделать еще одну вещь: создать наборы данных для «обучения» и «тестирования». Это означает, что некоторые из доступных данных используются для подбора модели, а остальные зарезервированы для проверки производительности модели. Этот тест определит, является ли модель прогнозирующей при воздействии «реальных» данных.

Тонкая настройка алгоритма

Алгоритм машинного обучения должен соответствовать задаче, которую он пытается решить. Должна ли подобранная модель классифицировать данные по дискретным группам или возвращать непрерывное число? Выбор между классификацией и моделью регрессии является фундаментальным в машинном обучении и статистике. Проблема классификации пытается классифицировать выборку на основе ее характеристик в определенную группу (например, пациенты, которые принимают определенное лекарство, по сравнению с теми, кто не принимает). Алгоритмы регрессии используют характеристики выборки для возврата непрерывного числового значения (например, процентная вероятность того, что пациенту будет назначено определенное лекарство).

Алгоритмы машинного обучения не могут быть приспособлены к обучающим данным и дают надежные прогнозы «из коробки». Дальнейшие входные данные необходимы для управления подходом алгоритма к подгонке модели. Точная настройка параметров или «гиперпараметров» алгоритма может изменить предсказательную силу модели. Например, эти параметры могут управлять тем, сколько функций в обучающем наборе включается в качестве предикторов в окончательную статистическую модель. Важно, чтобы выбранный набор гиперпараметров приводил к наиболее прогностической модели на основе тестового набора данных.

Прогноз

Легко настроить машинное обучение на обучающих данных, а затем сгенерировать точные прогнозы, используя функции из тех же данных, что и входные данные. Это может создать некоторое чувство выполненного долга, но ничего не говорит об универсальности модели. Модель устанавливает свою предсказательную силу используя имеющийся набор тестовых данных. Конечная цель – разработать статистическую модель, которая будет предсказательной даже при наличии невидимого набора функций.

Переход через сплит-тестирование похож на перевод того, что вы изучаете в классе, в точность на закрытом экзамене. Поскольку машинное обучение подгоняет модель к обучающим данным, оно рискует переобучить. Когда модель слишком чувствительна или запоминает случайный шум и особенности в обучающих данных, она менее предсказуема на тестовых данных. Как и в случае с моделью переобучения, студент, который запоминает только ответы на практические задачи, не сдаст экзамен.

Извлечение ценности из данных

Машинное обучение — это широкая и сложная тема, которая заимствована из многих дисциплин. Обсуждения в СМИ и общественном достоянии помогли создать своего рода мифологию вокруг этой области.

Как Google может предсказать сложность парковки в конкретном районе с огромным набором данных о поведении вождения в конкретном месте и нанесенных на карту городах?

Airbnb хранит огромное количество данных о прошлых бронированиях, их пользователях и доступных объектах. Как команда может создать индивидуальные результаты поиска, которые приведут к более высоким показателям бронирования?

Существует огромное количество общедоступных и частных биомедицинских данных, охватывающих взаимодействия белков с лекарствами, фармацевтические свойства и клинические записи. Как twoXAR может использовать эти дискретные наборы данных для прогнозирования новых лекарств-кандидатов для любого конкретного заболевания?

Благодаря пониманию фундаментальных теорий, лежащих в основе машинного обучения, становится ясно, как специалисты по данным могут решать эти сложные проблемы с помощью оптимизированных прогностических моделей.