Это пятая и последняя статья в серии статей, призванных сделать машинное обучение более доступным для тех, кто не имеет технической подготовки. В предыдущих статьях представлена ​​концепция машинного обучения, показано, как в целом работает процесс обучения, и описаны часто используемые алгоритмы. Начать серию можно здесь.

Подводя итоги этой серии, я привожу ниже глоссарий основных терминов и концепций машинного обучения. Это не является исчерпывающим (иначе это нарушило бы Medium!), Но оно содержит многие из самых фундаментальных терминов в данной области. Сделайте закладку или распечатайте это, если вы часто разговариваете с специалистами по обработке данных или читаете отчеты о результатах машинного обучения.

Точность - доля всех экземпляров, которые были правильно спрогнозированы алгоритмом классификации.

Алгоритм - процедура решения проблемы, обычно понимаемая в контексте машинного обучения как итеративная компьютерная программа.

Ассоциация - процесс связывания объектов на основе установленной статистической взаимосвязи.

AUC - площадь под кривой ROC для вероятностного классификатора. AUC - это показатель силы классификатора с сильными классификаторами, которые обычно достигают, а AUC составляет 80% и более.

Классификация - процесс распределения объектов по заранее определенным группам или классам.

Матрица неточностей - массив 2 x 2, используемый для иллюстрации точности и погрешности алгоритма классификации. Также известна как матрица ошибок или таблица непредвиденных обстоятельств.

Таблица непредвиденных обстоятельств - см. Матрицу неточностей.

Деревья решений - вложенный процесс принятия решений, имеющий форму дерева с ветвями, которое моделируется с помощью определенных алгоритмов.

Дискретный классификатор - алгоритм классификации, который определяет, к какому классу принадлежит экземпляр.

Ошибка - степень, в которой прогнозируемые выходные данные алгоритма контролируемого обучения не соответствуют желаемым (или реальным) выходным данным. В классификации это просто ряд неверных прогнозов.

Матрица ошибок - см. Матрица ошибок.

Ложноотрицательный - при обучении классификации это отрицательный прогноз, не совпадающий с реальными данными.

Ложно-положительный - при обучении классификации это положительный прогноз, не совпадающий с реальными данными.

FP Rate - ложноположительная оценка. В алгоритме классификации - доля отрицательных случаев, которые были ошибочно предсказаны как положительные.

Обобщение. При обучении с учителем - применение алгоритма к новым данным за пределами обучающей выборки.

Коэффициент Джини - см. AUC. Джини - это макроэкономическая мера распределения богатства, которая линейно эквивалентна AUC и иногда используется вместо нее. Джини = 2 x AUC - 1.

Гиперплоскость. В линейной алгебре и геометрии это обобщение идеи прямой или плоскости в пространстве более высоких измерений. В n-мерном пространстве гиперплоскость - это подпространство n-1 измерений.

Индуктивное смещение. При обучении с учителем исходные гипотезы, сделанные специалистом по данным о том, какой тип алгоритма или функции лучше всего подходит для обучающих данных.

Входные атрибуты - точки данных или свойства примеров в обучающем наборе для обучения с учителем.

Линейная разделимость - наличие линий или «гиперплоскостей» в многомерном пространстве, которые могут разделять данные на классы.

Кривая Лоренца - кривая, отображающая кумулятивное распределение вероятностей. Кривая ROC - это кривая Лоренца.

Самая общая гипотеза. В обучении с учителем это функция, которая позволяет подбирать данные обучения в наиболее «приблизительной» степени.

Самая конкретная гипотеза. В контролируемом обучении это функция, которая максимально соответствует обучающим данным.

Наивные байесовские классификаторы - простые алгоритмы классификации, основанные на расчетах основных вероятностей.

Шум - нежелательные аномалии в данных, которые скрывают основные взаимосвязи или структуру.

Онлайн-обучение - процесс самокоррекции в процессе обучения. Алгоритм, который выполняет онлайн-обучение, оптимизирует решение в процессе обучения, чтобы конечный результат был наилучшим возможным результатом с учетом параметров.

Overfit - контролируемое обучение: ошибки в новых данных из-за слишком сложного алгоритма.

Точность - в алгоритме классификации доля правильных предсказанных положительных случаев.

Вероятностный классификатор - алгоритм классификации, который выводит вероятность того, что экземпляр является членом определенного класса.

Отзыв - см. процентную ставку.

Рекурсивное разбиение - процесс, используемый в алгоритмах дерева решений, где данные неоднократно разбиваются на более мелкие подмножества в зависимости от их вероятностной связи с результатом.

Обучение с подкреплением - обучение путем «попытки» ответа и «наказания» или «вознаграждения» в зависимости от того, был ли ответ желаемым.

Кривая ROC - кривая, нанесенная на график ROC, чтобы проиллюстрировать взаимосвязь между скоростью TP и скоростью FP для вероятностного классификатора.

ROC graph - график характеристик принимающего оператора. Двумерный график, используемый для построения графика эффективности алгоритмов классификации, обычно со скоростью FP по оси x и скоростью TP по оси y.

Чувствительность - см. коэффициент TP.

Специфичность - в алгоритме классификации доля отрицательных случаев, которые были предсказаны правильно. Специфичность = 1 - ставка FP.

Контролируемое обучение - изучение выборки данных, которая содержит конкретный «ответ» или результат, и использование этого для прогнозирования результата для новых данных.

Машины опорных векторов - семейство алгоритмов классификации, которые отображают данные в многомерном пространстве и пытаются найти разделительные линии или «гиперплоскости» между классами.

Тестовый набор. При обучении с учителем набор данных, используемых для вычисления ошибки алгоритма.

TP Rate - истинно положительный рейтинг. В алгоритме классификации - доля положительных примеров, которые были предсказаны правильно. Также известен как отзыв или чувствительность.

Обучающий набор - набор данных, на основе которых будет обучаться алгоритм контролируемого обучения.

Истинно отрицательный - при обучении классификации это отрицательный прогноз, совпадающий с реальными данными.

Истинно-положительный - при обучении классификации это положительный прогноз, совпадающий с реальными данными.

Недостаточное соответствие - контролируемое обучение: ошибки в новых данных из-за слишком простого алгоритма.

Обучение без учителя - изучение основных взаимосвязей или структуры данных, в которых не ожидается никакого конкретного «ответа» или вывода.

Проверочный набор. В контролируемом обучении - набор данных, используемых для проверки обобщения алгоритма, который был обучен на обучающем наборе.

Изначально я был чистым математиком, затем стал психометриком и специалистом по анализу данных. Я с энтузиазмом отношусь к применению всех этих дисциплин к сложным человеческим вопросам. Я также помешан на кодировании и большой поклонник японских ролевых игр. Найдите меня в LinkedIn или Twitter.