Это пятая и последняя статья в серии статей, призванных сделать машинное обучение более доступным для тех, кто не имеет технической подготовки. В предыдущих статьях представлена концепция машинного обучения, показано, как в целом работает процесс обучения, и описаны часто используемые алгоритмы. Начать серию можно здесь.
Подводя итоги этой серии, я привожу ниже глоссарий основных терминов и концепций машинного обучения. Это не является исчерпывающим (иначе это нарушило бы Medium!), Но оно содержит многие из самых фундаментальных терминов в данной области. Сделайте закладку или распечатайте это, если вы часто разговариваете с специалистами по обработке данных или читаете отчеты о результатах машинного обучения.
Точность - доля всех экземпляров, которые были правильно спрогнозированы алгоритмом классификации.
Алгоритм - процедура решения проблемы, обычно понимаемая в контексте машинного обучения как итеративная компьютерная программа.
Ассоциация - процесс связывания объектов на основе установленной статистической взаимосвязи.
AUC - площадь под кривой ROC для вероятностного классификатора. AUC - это показатель силы классификатора с сильными классификаторами, которые обычно достигают, а AUC составляет 80% и более.
Классификация - процесс распределения объектов по заранее определенным группам или классам.
Матрица неточностей - массив 2 x 2, используемый для иллюстрации точности и погрешности алгоритма классификации. Также известна как матрица ошибок или таблица непредвиденных обстоятельств.
Таблица непредвиденных обстоятельств - см. Матрицу неточностей.
Деревья решений - вложенный процесс принятия решений, имеющий форму дерева с ветвями, которое моделируется с помощью определенных алгоритмов.
Дискретный классификатор - алгоритм классификации, который определяет, к какому классу принадлежит экземпляр.
Ошибка - степень, в которой прогнозируемые выходные данные алгоритма контролируемого обучения не соответствуют желаемым (или реальным) выходным данным. В классификации это просто ряд неверных прогнозов.
Матрица ошибок - см. Матрица ошибок.
Ложноотрицательный - при обучении классификации это отрицательный прогноз, не совпадающий с реальными данными.
Ложно-положительный - при обучении классификации это положительный прогноз, не совпадающий с реальными данными.
FP Rate - ложноположительная оценка. В алгоритме классификации - доля отрицательных случаев, которые были ошибочно предсказаны как положительные.
Обобщение. При обучении с учителем - применение алгоритма к новым данным за пределами обучающей выборки.
Коэффициент Джини - см. AUC. Джини - это макроэкономическая мера распределения богатства, которая линейно эквивалентна AUC и иногда используется вместо нее. Джини = 2 x AUC - 1.
Гиперплоскость. В линейной алгебре и геометрии это обобщение идеи прямой или плоскости в пространстве более высоких измерений. В n-мерном пространстве гиперплоскость - это подпространство n-1 измерений.
Индуктивное смещение. При обучении с учителем исходные гипотезы, сделанные специалистом по данным о том, какой тип алгоритма или функции лучше всего подходит для обучающих данных.
Входные атрибуты - точки данных или свойства примеров в обучающем наборе для обучения с учителем.
Линейная разделимость - наличие линий или «гиперплоскостей» в многомерном пространстве, которые могут разделять данные на классы.
Кривая Лоренца - кривая, отображающая кумулятивное распределение вероятностей. Кривая ROC - это кривая Лоренца.
Самая общая гипотеза. В обучении с учителем это функция, которая позволяет подбирать данные обучения в наиболее «приблизительной» степени.
Самая конкретная гипотеза. В контролируемом обучении это функция, которая максимально соответствует обучающим данным.
Наивные байесовские классификаторы - простые алгоритмы классификации, основанные на расчетах основных вероятностей.
Шум - нежелательные аномалии в данных, которые скрывают основные взаимосвязи или структуру.
Онлайн-обучение - процесс самокоррекции в процессе обучения. Алгоритм, который выполняет онлайн-обучение, оптимизирует решение в процессе обучения, чтобы конечный результат был наилучшим возможным результатом с учетом параметров.
Overfit - контролируемое обучение: ошибки в новых данных из-за слишком сложного алгоритма.
Точность - в алгоритме классификации доля правильных предсказанных положительных случаев.
Вероятностный классификатор - алгоритм классификации, который выводит вероятность того, что экземпляр является членом определенного класса.
Отзыв - см. процентную ставку.
Рекурсивное разбиение - процесс, используемый в алгоритмах дерева решений, где данные неоднократно разбиваются на более мелкие подмножества в зависимости от их вероятностной связи с результатом.
Обучение с подкреплением - обучение путем «попытки» ответа и «наказания» или «вознаграждения» в зависимости от того, был ли ответ желаемым.
Кривая ROC - кривая, нанесенная на график ROC, чтобы проиллюстрировать взаимосвязь между скоростью TP и скоростью FP для вероятностного классификатора.
ROC graph - график характеристик принимающего оператора. Двумерный график, используемый для построения графика эффективности алгоритмов классификации, обычно со скоростью FP по оси x и скоростью TP по оси y.
Чувствительность - см. коэффициент TP.
Специфичность - в алгоритме классификации доля отрицательных случаев, которые были предсказаны правильно. Специфичность = 1 - ставка FP.
Контролируемое обучение - изучение выборки данных, которая содержит конкретный «ответ» или результат, и использование этого для прогнозирования результата для новых данных.
Машины опорных векторов - семейство алгоритмов классификации, которые отображают данные в многомерном пространстве и пытаются найти разделительные линии или «гиперплоскости» между классами.
Тестовый набор. При обучении с учителем набор данных, используемых для вычисления ошибки алгоритма.
TP Rate - истинно положительный рейтинг. В алгоритме классификации - доля положительных примеров, которые были предсказаны правильно. Также известен как отзыв или чувствительность.
Обучающий набор - набор данных, на основе которых будет обучаться алгоритм контролируемого обучения.
Истинно отрицательный - при обучении классификации это отрицательный прогноз, совпадающий с реальными данными.
Истинно-положительный - при обучении классификации это положительный прогноз, совпадающий с реальными данными.
Недостаточное соответствие - контролируемое обучение: ошибки в новых данных из-за слишком простого алгоритма.
Обучение без учителя - изучение основных взаимосвязей или структуры данных, в которых не ожидается никакого конкретного «ответа» или вывода.
Проверочный набор. В контролируемом обучении - набор данных, используемых для проверки обобщения алгоритма, который был обучен на обучающем наборе.
Изначально я был чистым математиком, затем стал психометриком и специалистом по анализу данных. Я с энтузиазмом отношусь к применению всех этих дисциплин к сложным человеческим вопросам. Я также помешан на кодировании и большой поклонник японских ролевых игр. Найдите меня в LinkedIn или Twitter.