"Машинное обучение"

Как Microsoft Icebreaker решает проблему холодного старта в моделях машинного обучения

Новый метод позволяет развертывать модели машинного обучения, которые работают с минимальными данными обучения.

Недавно я начал выпускать образовательный информационный бюллетень, посвященный ИИ, на который уже подписано более 70 000 человек. TheSequence - это информационный бюллетень, ориентированный на машинное обучение (то есть без рекламы, новостей и т. Д.), На чтение которого уходит 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:



Получение и маркировка данных обучения остается одной из основных проблем для массового внедрения решений машинного обучения. В сообществе исследователей машинного обучения было предпринято несколько попыток, таких как обучение со слабым учителем или однократное обучение, для решения этой проблемы. Microsoft Research недавно создала группу под названием Minimum Data AI для работы над различными решениями для моделей машинного обучения, которые могут работать без необходимости в больших наборах обучающих данных. Недавно эта группа опубликовала документ, раскрывающий Icebreaker, структуру для разумного сбора данных для обучения, которая позволяет развертывать модели машинного обучения, которые могут работать с небольшими данными для обучения или без них.

Текущая эволюция исследований и технологий машинного обучения отдает приоритет контролируемым моделям, которым необходимо немного знать о мире, прежде чем они смогут производить какие-либо соответствующие знания. В реальных сценариях получение и поддержание высококачественных наборов данных для обучения оказывается довольно сложным, а иногда и невозможным. В теории машинного обучения мы называем эту дилемму проблемой ледяного (холодного) старта.

Зная то, чего вы не знаете: задача Ice-Start в машинном обучении

Проблема / дилемма ледового старта относится к количеству обучающих данных, необходимых для того, чтобы модели машинного обучения были эффективными. Технически, большинству агентов машинного обучения необходимо начинать с большого набора обучающих данных и начинать регулярно уменьшать его размер во время последующих обучающих прогонов, пока модель не достигнет желаемого уровня точности. Задача ледового старта относится к способности модели эффективно работать в отсутствие набора обучающих данных.

Решение проблемы ледового старта можно описать популярной фразой «зная то, чего вы не знаете». Во многих жизненных ситуациях понимание недостающих знаний в текущем контексте оказывается не менее или более важным, чем существующие знания. Статистические ботаники часто ссылаются на известный анекдот о Второй мировой войне, чтобы проиллюстрировать эту дилемму.

Во время Второй мировой войны Пентагон собрал команду самых известных математиков страны для разработки статистических моделей, которые могли бы помочь союзным войскам во время войны. Талант был потрясающий. Там был Фредерик Мостеллер, который позже основал статистический департамент Гарварда. Таким же был и Леонард Джимми Сэвидж, пионер теории принятия решений и великий защитник области, которая стала называться байесовской статистикой. Норберт Винер, математик Массачусетского технологического института и создатель кибернетики, и Милтон Фридман, будущий лауреат Нобелевской премии по экономике, также были частью группы. Одно из первых заданий группы состояло в оценке уровня дополнительной защиты, которая должна быть добавлена ​​к самолетам США, чтобы выжить в боях с немецкими военно-воздушными силами. Как и хорошие статистики, команда собирала повреждения, нанесенные самолетам, возвращавшимся после столкновений с нацистами.

Для каждого самолета математики вычислили количество пулевых отверстий в разных частях самолета (двери, крылья, двигатель и т. Д.). Затем группа приступила к выработке рекомендаций относительно того, какие участки самолетов должны иметь дополнительную защиту. Неудивительно, что подавляющее большинство рекомендаций было сосредоточено на областях, в которых было больше пулевых отверстий, если предположить, что это были районы, на которые нацелились немецкие самолеты. В группе было одно исключение, молодой статистик по имени Абрахам Вальд, который рекомендовал сосредоточить дополнительную защиту в тех областях, где не было обнаружено никаких повреждений в инвентаризованных самолетах. Почему? очень просто, молодой математик утверждал, что входной набор данных (самолеты) включал только самолеты, уцелевшие в боях с немцами. Хотя эти самолеты были серьезными, ущерб, нанесенный этими самолетами, не был настолько катастрофическим, чтобы они не могли вернуться на базу. поэтому он пришел к выводу, что самолеты, которые не вернулись, скорее всего, пострадали от ударов в других районах. Очень умно, да?

Этот урок учит нас тому, что понимание недостающих данных в данном контексте так же важно, как понимание существующих данных. Если экстраполировать это на модели машинного обучения, ключ к решению проблемы ледового старта - это иметь масштабируемую модель, которая знает то, чего она не знает, а именно для количественной оценки эпистемической неопределенности. Эти знания можно использовать для получения обучающих данных. Интуитивно незнакомые, но информативные функции более полезны для обучения моделей.

Ледокол

Microsoft Icebreaker - это новое решение проблемы ледового старта. Концептуально Icebreaker полагается на глубокую генеративную модель, которая сводит к минимуму объем и стоимость данных, необходимых для обучения модели машинного обучения. С точки зрения архитектуры Icebreaker состоит из двух компонентов. Первый компонент - это глубокая генеративная модель (PA-BELGAM), показанная в верхней половине модели выше, которая имеет новый алгоритм вывода, который может явно количественно оценить эпистемическую неопределенность. Второй компонент - это набор новых целей поэлементного выбора обучающих данных для сбора данных, показанных в нижней половине модели.

Ядром ледокола является модель ПА-БЕЛГАМ. Эта модель основана на версии вариационного автокодировщика, который может управлять недостающими элементами и весами декодера. Вместо использования стандартной глубокой нейронной сети в качестве декодера для отображения данных из скрытого представления Icebreaker использует байесовскую нейронную сеть, и мы помещаем предварительное распределение по весам декодера.

Microsoft оценила Icebreaker на разных наборах данных разного размера. Модель продемонстрировала соответствующие улучшения по сравнению с современными моделями, как показано на следующем рисунке. На диаграмме слева показано, что Icebreaker работает лучше, чем несколько базовых показателей, обеспечивая лучшую точность теста с меньшим количеством данных обучения. График справа показывает количество точек данных для восьми функций по мере увеличения общего размера нашего набора данных.

Microsoft Icebreaker - это инновационная модель, позволяющая развертывать модели машинного обучения, которые работают с небольшим количеством данных или без них. Используя новые статистические методы, Icebreaker может выбрать правильные характеристики для данной модели, не требуя большого набора данных. Microsoft Research открыла исходный код ранней версии Icebreaker, которая дополняет исследовательский документ.