Я вел вводные курсы по машинному обучению для нескольких тысяч студентов всех уровней (от бакалавра до докторантуры). Многие студенты, которые начинают изучать машинное обучение, сталкиваются с трудностями при освоении концепций функций, меток и пространств гипотез.

На первый взгляд эти понятия могут показаться довольно абстрактными и математическими.
Однако оказывается, что опираться на эти понятия на практике очень полезно.
Позвольте мне попытаться убедить вас, почему это так.

Когда вы сталкиваетесь с конкретным приложением (например, решаете, какую футболку купить,
на основе ее экологического следа), не существует единственно правильного выбора
того, что вы считаете точками данных, функциями, ярлыками и пространством гипотез.

В конце концов, этот выбор остается за вами (= инженером по машинному обучению/аналитиком данных)
и разработка полезного определения точек данных, функций, меток и
пространства гипотез может быть самой сложной задачей. шаг к разработке решения для машинного обучения для данного приложения.

Как только вы нашли полезное определение признаков и меток
точки данных, вы можете довольно легко применять готовые реализации алгоритмов машинного обучения, например, используя библиотеку Python https://scikit-learn .org/стабильный/.
´
Точки данных. Вы должны определить точки данных таким образом, чтобы их было много. Большинство методов машинного обучения основаны на статистических принципах. Статистика работает лучше всего, когда у вас есть большая совокупность множества точек данных, так что вы можете усреднить их.

Функции. Для эффективного машинного обучения необходимо характеризовать точки данных
с помощью небольшого количества величин или измерений, которые мы называем "функциями". В принципе,
мы можем использовать любое количество в качестве признака, если мы можем легко вычислить или
измерить это количество (например, значения красного, зеленого и синего пикселей изображения).

Ярлыки. Во многих приложениях нас интересует некоторое свойство точки данных
(например, количество воды, используемой для изготовления футболки), которое
непросто. определить. Таким образом, мы изучаем карту предикторов или гипотез, которая
считывает характеристики точки данных и выдает оценку/приближение/догадку
метки.

Пространство гипотез. В принципе, мы могли бы использовать в качестве предиктора любую карту или функцию, которая сопоставляет заданное значение функции точек данных с предсказанной меткой. Однако, учитывая ограниченные вычислительные ресурсы, нам нужно ограничиться меньшим подмножеством возможных предикторов. Это меньшее подмножество функций-предикторов называется «пространством гипотез».

Как функции и метки, пространство гипотез также является выбором дизайна. Не существует
единственно правильного выбора для пространства гипотез. Пространство гипотез следует выбирать таким образом, чтобы его функции предсказания можно было эффективно вычислить с помощью доступных вычислительных ресурсов.

Одним из примеров пространства гипотез может быть набор всех функций или
карт, реализованных функцией Python.

def some_predictor(x):
hat_y = …. # вычислить предсказанную метку
return hat_y # вернуть предсказанную метку

Мы могли бы определить пространство гипотез всеми такими функциями Python, которые требуют менее 1 миллисекунды на конкретном компьютере. Другое (большее) пространство гипотез получается всеми такими функциями Python, которые требуют не более 2 миллисекунд.

Чтение.



Видео.

https://youtu.be/WWYRH3x7_5M