Одна из основных основ машинного обучения.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 125 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



Понимание характеристик входных наборов данных является важной возможностью алгоритмов машинного обучения. Учитывая конкретный вход, модели машинного обучения должны делать выводы о конкретных функциях данных, чтобы выполнять некоторые целевые действия. Изучение представлений или изучение признаков — это субдисциплина пространства машинного обучения, которая занимается извлечением признаков или пониманием представления набора данных.

Репрезентативное обучение можно проиллюстрировать на очень простом примере. Возьмите алгоритм глубокого обучения, который пытается идентифицировать геометрические фигуры на следующем изображении:

Чтобы сопоставить пиксели с геометрическими фигурами, алгоритму сначала необходимо понять некоторые основные характеристики/представления данных, например количество углов. В этом заключается роль репрезентативного обучения.

Репрезентативное обучение было признанной дисциплиной в области машинного обучения на протяжении десятилетий, но его актуальность значительно возросла в последнее время с появлением глубокого обучения. В то время как традиционные методы машинного обучения, такие как классификация, часто имеют дело с математически хорошо структурированными наборами данных, модели глубокого обучения обрабатывают данные, такие как изображения или звуки, которые не имеют четко определенных характеристик. В этом смысле репрезентативное обучение является ключевым элементом большинства архитектур глубокого обучения.

Центральная проблема обучения представлению состоит в том, чтобы определить оптимальное представление для входных данных. В контексте глубокого обучения качество представления в основном определяется тем, насколько оно облегчает процесс обучения. В реальном мире алгоритм обучения и базовое представление модели напрямую связаны.

Теорема о бесплатном обеде

Если представление знаний модели связано с ее алгоритмом обучения, то выбор правильного представления должен быть тривиальным, верно? Мы просто выбираем представление знаний, связанное с задачей обучения, и это должно гарантировать оптимальную производительность. Хотел бы я, чтобы это было так просто. В поисках оптимального представления мы быстро находим старого друга: теорему о бесплатном обеде (NFLT).

NFLT — один из тех математических парадоксов, который озадачивает самых прагматичных специалистов по данным и технологов. В двух словах, NFLT утверждает, что усредняет все возможные распределения, генерирующие данные, и каждый алгоритм машинного обучения имеет примерно одинаковую частоту ошибок при обработке ранее ненаблюдавшихся точек (читайте мою предыдущую статью о NFLT). Другими словами, ни один алгоритм машинного обучения не лучше любого другого при достаточно широком наборе данных.

В контексте обучения представлению NFLT демонстрирует, что несколько представлений знаний могут быть применимы к учебной задаче. Если это так, то как мы можем эмпирически решить, какое представление знаний лучше, чем другое? Ответ — один из основных и часто игнорируемых методов машинного обучения и моделей глубокого обучения: регуляризация.

Регуляризация

Основная задача алгоритмов машинного обучения — хорошо работать с новыми входными данными за пределами обучающего набора данных. Оптимизация этой задачи — роль регуляризации. Концептуально регуляризация вызывает модификации алгоритма машинного обучения, которые уменьшают ошибку теста или обобщения, не влияя на ошибку обучения.

Давайте теперь совершим полный круг и посмотрим, как регуляризация связана с обучением представлению. Связь кристально ясна: качество представления знаний в основном связано с его способностью эффективно обобщать знания. Другими словами, представление знаний должно быть способно адаптироваться к новым входным данным за пределами обучающего набора данных. Чтобы хорошо работать с новыми входными данными и уменьшить ошибку обобщения, любое представление знаний должно быть полезным в методах регуляризации. Таким образом, на качество моделей обучения представлению напрямую влияет их способность работать с различными стратегиями регуляризации. Следующим шагом является выяснение того, какие стратегии регуляризации особенно важны для обучения представлению. Это будет темой будущего поста.

Теперь, когда мы знаем, что регуляризация — это механизм улучшения представления знаний, следующим шагом будет оценка качества данного представления. По сути, мы пытаемся ответить на простой вопрос: что делает представление знаний лучше других?

Улучшение знаний путем регуляризации

Чтобы понять терминологию, под регуляризацией мы имеем в виду способность модели уменьшать ошибку теста (ошибку генерации), не влияя на ошибку обучения. Каждое представление знаний имеет определенные характеристики, которые делают его более подходящим для конкретных методов регуляризации. Светила искусственного интеллекта Ян Гудфеллоу и Йошуа Бенжио проделали замечательную работу в области регуляризации. Основываясь на тезисе Гудфеллоу и Бенжио, есть несколько характеристик, которые делают представления знаний более эффективными, когда дело доходит до регуляризации. Ниже я резюмировал пять моих любимых моделей регулирования:

1 — Распутывание причинных факторов

Одним из ключевых показателей надежного представления знаний является тот факт, что его особенности соответствуют основным причинам обучающих данных. Эта характеристика помогает отделить, какие признаки в представлении соответствуют конкретным причинам во входном наборе данных, и, следовательно, помогает лучше отделить одни признаки от других.

2 — Плавность

Гладкость представления — это предположение о том, что значение гипотезы не меняется резко среди точек, находящихся в непосредственной близости друг от друга во входном наборе данных. Математически гладкость подразумевает, что f(x+ed)≈ f(x) для очень малого e. Эта характеристика позволяет представлениям знаний лучше обобщать близкие области во входном наборе данных.

3-линейность

Линейность — это шаблон регуляризации, дополняющий предположение о гладкости. Концептуально эта характеристика предполагает линейную связь между некоторыми входными переменными (f(x) = ax + b), что позволяет делать точные прогнозы даже при относительно больших отклонениях от входных данных.

4 — Иерархические структуры

Представления знаний, основанные на иерархиях, идеально подходят для многих методов регуляризации. Иерархия предполагает, что каждый шаг в сети можно объяснить предыдущими шагами, что чрезвычайно помогает лучше рассуждать через представление знаний.

5 — Многообразное представление

Многообразное обучение — одна из самых увлекательных, математически глубоких основ машинного обучения. Концептуально многообразие представляет собой многомерную область полностью связанных точек. Предположение о многообразии утверждает, что вероятностные массы имеют тенденцию концентрироваться в многообразии входных данных. Отличительной особенностью многообразий является то, что их относительно легко свести от многомерных структур к менее размерным представлениям, которыми легче и дешевле манипулировать. Многие алгоритмы регуляризации особенно эффективны при обнаружении многообразий и управлении ими.

Несмотря на свою важность, репрезентативное обучение остается не очень известной дисциплиной в области глубокого обучения. Понимание функций и представления базовых наборов данных необходимо для выбора наилучшей архитектуры нейронной сети для любой поставленной задачи. Некоторые из характеристик, объясненных в этой статье, обеспечивают простую основу для размышлений о репрезентативном обучении в контексте решений для глубокого обучения.