Вас интересуют такие области исследований, как активное, самостоятельное и полу-контролируемое обучение, а также то, как мы можем оптимизировать наборы данных, а не модели глубокого обучения? Вы в хорошей компании, и эта запись в блоге расскажет вам об этом все!

В этом посте вы узнаете больше о нашем пути в качестве молодой компании в этой новой области и наших знаниях о том, почему и как мы можем улучшить модели глубокого обучения, сосредоточив внимание на оптимизации наборов данных. Однако, поскольку достаточное количество блогов и руководств уже охватывает все аспекты в области поиска по архитектуре, оптимизации гиперпараметров или аналогичных тем, мы не будем говорить об этом здесь.

Стоит ли тратить время на оптимизацию набора данных?

Многие недавние исследования были сосредоточены на исправлении набора данных и использовании его в качестве эталона для различных архитектур или стратегий обучения и регуляризации. В недавних статьях, таких как Полуконтролируемое обучение в миллиардном масштабе для классификации изображений или Самообучение с шумным учеником, предварительное обучение на больших наборах данных используется для повышения точности тестирования на знаменитом наборе данных ImageNet. Тем не менее, основное внимание уделяется архитектуре или способу обучения.

Мы предлагаем другую область исследования, которая менее изучена - исправление архитектуры и методов обучения, но изменение данных обучения.
Позвольте мне проиллюстрировать процесс: выбирается общий набор данных, такой как cifar10 или ImageNet, а затем фиксируются набор для тестирования и проверки. В отличие от вышеупомянутого метода, здесь основное внимание уделяется тому, как субдискретизация или передискретизация существующего обучающего набора может повлиять на производительность соответствующего проверочного набора тестов. Другими словами, мы добавляем или удаляем образцы из обучающей выборки, а затем сравниваем разные методы.

Случайное удаление образцов в качестве базового уровня

Теперь у нас есть определенная задача - сравнение различных стратегий выборки и их сравнительный анализ на различных наборах данных. Нам не хватает базовой линии, с которой можно было бы сравнить наш метод. Сама задача похожа на активное обучение. Предполагая, что мы начинаем с небольшой части обучающего набора данных и итеративно добавляем пакеты на основе высокой неопределенности модели, мы создаем набор данных из очень релевантных выборок. Обычно методы активного обучения сравнивают со случайной подвыборкой.

Одна из недавних статей в активном обучении от 2019 года - Дискриминационное активное обучение. Они сравнивают различные методы со своим новым методом. Как обычно в случае активного обучения, эти подходы основаны на повторяющемся цикле поезд-прогноз-метка. Метка в контексте фильтрации набора данных будет эквивалентна процессу выборки. Другими словами, набор данных создается шаг за шагом, добавляя все больше и больше образцов. На иллюстрации ниже такой шаг содержит добавление 5000 образцов к обучающей выборке.

Активное обучение - обычная практика сегодня. Однако у текущих реализаций есть немало недостатков. Можем ли мы сделать лучше?

Использование самостоятельного обучения для подвыборки

В WhatToLabel мы хотим выйти за рамки текущего активного обучения и решить две следующие экзистенциальные проблемы:

  1. Активное обучение сталкивается с проблемой холодного старта, поскольку для этого требуется изначально обученная модель, которой требуется помеченный набор данных.
  2. Итерационные циклы поезд-прогнозирование-метка очень замедляют работу с большими наборами данных, поскольку модель требует постоянного переобучения.

Мы считаем, что, используя последние достижения в области изучения функций - используя самоконтроль и новые методы, которые мы разработали внутри компании, - мы можем решить обе проблемы.

На графике ниже показаны первые результаты, полученные в результате более чем года обширных экспериментов и исследований. Нам удалось разработать метод подвыборки наборов данных лучше, чем случайный, без меток и без цикла «поезд-прогноз-метка», как при активном обучении. Каждая из этих рабочих точек (% от размера обучающего набора данных) могут быть вычислены без вмешательства человека менее чем за час для 100 000 образцов.

Что дальше?

Обширная оценка нашего метода с существующими подходами к активному обучению. Многие инженеры спрашивали нас, как наши результаты соотносятся с их существующим процессом активного обучения. Вот почему мы выделяем часть наших инженерных ресурсов для сравнения наших методов на различных наборах данных с другими распространенными стратегиями активного обучения.

Мы очень рады созданию такой важной инфраструктуры для этой революции искусственного интеллекта и будущих событий! Если у вас есть какие-либо вопросы, не стесняйтесь оставлять комментарии ниже или обращаться к нам.

Игорь, сооснователь
whattolabel.com