Нам нужна гибкость в машинном обучении

Пришло время нелинейного итеративного подхода к созданию высокопроизводительных приложений искусственного интеллекта для машинного зрения.

Проблемы, с которыми сталкиваются проекты Vision AI из-за роста затрат и невозможности довести их до стадии производства, к настоящему времени хорошо задокументированы. В этом посте описывается методология, которая решает 90% упомянутых проблем, а именно подготовку данных и разработку решения.

Подходы нынешних групп машинного обучения (ML) к разработке моделей глубокого обучения в основном линейны и напоминают старомодную разработку программного обеспечения водопада, а не гибкие методологии. В результате на подготовку первой тестируемой модели уходят месяцы. Производительность этой первой модели зависит от слепых предположений, сделанных в начале процесса, а не от идей, полученных в ходе текущего тестирования.

Представляем аннотацию нового поколения Хэсти

Здесь, в Hasty, мы - команда практиков машинного обучения, которые сталкивались с этими проблемами снова и снова. Поэтому мы создали инструмент аннотации нового поколения, который обеспечивает гибкий подход, чтобы вам больше не приходилось сталкиваться с проблемами. Наши пользователи достигают более высокого уровня автоматизации, итеративных рабочих процессов и экспоненциальной скорости благодаря тому, что мы обучаем модели, пока вы наносите этикетку.

ML-инженерии сегодня не хватает быстрых петель обратной связи.

Вы инженер машинного обучения? Вы когда-нибудь тратили недели на разработку приложения? Когда вы наконец развернулись, вы заметили, что модели работают не так, как ожидалось? Если с вами этого еще не произошло, вы - исключение (или пользователь Hasty).

Вообще говоря, для обучения моделей глубокого обучения инженеры машинного обучения должны пройти следующие этапы:

Этап разработки: определите проблему и выберите стратегию аннотации и архитектуру модели.
Подготовка данных: сбор и маркировка данных обучения.
Построение модели: построение архитектуры модели и обучение модели.
Развертывание: подготовка, оптимизация и, наконец, фактическое развертывание.
Оценка: проверьте эффективность модели.

Многие инженеры машинного обучения придерживаются линейного подхода и рассматривают все эти задачи как отдельные последовательные задачи. Как только проблема определена, значительное количество времени тратится на подготовку данных или их передачу на аутсорсинг. На подготовку данных уйдут недели, если не месяцы.

Только после этого создаются первые модели и получается реальное представление о том, как работают разные архитектуры. Часто производительность не оправдывает ожиданий - что характерно для ранних версий. Одна из распространенных причин заключается в том, что стратегия аннотации не была оптимальным выбором, например, следовало использовать сегментацию экземпляров, а не ограничивающие рамки. Это ценная обратная связь, но она приходит на поздних этапах процесса, когда уже было потрачено много денег и времени. Иногда настолько, что проект убивают.

Реальность диктует, что команды машинного обучения будут повторять итерации, особенно при создании чего-то нового, и этого следует ожидать и встроить в процесс - вы будете переключаться между этапами разработки по мере совершенствования своего подхода. линейный подход заключается в том, что опоздание с выводами скорее тормозит развитие, чем улучшает его. Вот почему мы считаем, что петли обратной связи и гибкие методологии имеют решающее значение для успеха.

Маховик данных в компьютерное зрение.

Здесь, в Hasty, мы не рассматриваем различные фазы как отдельные или последовательные. Скорее, мы обучаем модель, пока вы наносите этикетку. Это позволяет нам получить представление о взаимосвязи между данными обучения и полученной моделью и приблизить их, предоставив инженеру практическую обратную связь.

Святой Грааль для Vision AI - это эффективный цикл обратной связи, в котором инженерные группы машинного обучения создают маховик данных - самоусиливающийся цикл. Именно здесь нейронные сети постоянно улучшаются с каждым новым обращением, которое они видят, и поэтому они могут больше понимать и обрабатывать больше случаев.

С Hasty модель улучшается с учетом каждой малейшей задачи во время разработки и каждого действия, предпринимаемого аннотирующим пользователем. Уже во время первоначальной разметки данных вы получаете обратную связь о своей стратегии аннотации, устанавливая первый цикл обратной связи. Кроме того, тестирование различных архитектур и развертываний становится простым и интуитивно понятным, поэтому команды могут быстро создавать прототипы и выполнять итерацию.

После развертывания модели для окончательного варианта использования реальная релевантная обратная связь от конечных пользователей возвращается, чтобы замкнуть цикл. Изображения, на которых модели плохо работали, можно отправить обратно в аннотационную платформу для повторного обучения. Благодаря этому производительность приложения может постоянно улучшаться - даже после развертывания.

Подготовка данных должна быть быстрой, повторяющейся и передаваться на аутсорсинг только после подтверждения подхода.

В среднем инженеры машинного обучения тратят 80% нашего времени на подготовку данных, поэтому мы начали с автоматизации маркировки с помощью специальной модели.

Чтобы гибкий рабочий процесс работал, подготовка данных должна быть быстрой, чтобы вы могли быстро протестировать различные стратегии аннотации.

Кроме того, вы уже должны иметь возможность получать обратную связь при аннотировании и повторно настраивать свою стратегию после всего лишь нескольких изображений, а не только после завершения набора данных. Это возможно только при наличии модели, обученной в процессе маркировки.

Наконец, будучи инженером машинного обучения, вы получаете огромную выгоду от выполнения первоначальной маркировки самостоятельно, когда модель обучается как часть процесса, поскольку вы получаете бесценную информацию о производительности модели и дизайне решения в целом. Для этого необходимы инструменты, которые избавляют от лишних хлопот с аннотациями.

Hasty предлагает автоматизацию и гибкую методологию

Hasty автоматизирует 70% работы по подготовке данных, что ускоряет работу и дает вам возможность самостоятельно аннотировать первые данные без длительной конфигурации, настройки или вместо того, чтобы передавать это BPO на аутсорсинг (мы не ненавидим BPO, но считаем, что они больше всего подходят для этого). эффективен на масштабной стадии проекта).

Важнейшая часть успеха вашего проекта: вы получаете мгновенную обратную связь с каждой аннотацией. Таким образом, вы можете тестировать качество данных в режиме реального времени, поскольку мы проведем вас от изображений до вашей первой модели за один день. (Помните, что мы говорили выше? Обычно это занимает недели.)

У нас есть помощники AI, которые наблюдают за тем, как вы комментируете, и вносят предложения для этикеток только после нескольких изображений. Исправляя эти предложения, вы обучите модели, стоящие за помощниками, и мгновенно получите обратную связь о том, насколько хорошо работает ваша стратегия аннотаций. Это дает нейронной сети кривую обучения, поскольку она учится на проекте, пока вы маркируете.

Кроме того, мы построили модели, которые выявляют ошибки во время вашей работы, поэтому вам не нужно вручную просматривать данные, чтобы найти ошибки. Это позволяет вам тратить время на исправление ошибок, а не на их поиск, и помогает быстро укрепить уверенность в своих данных.

Важно отметить, что вы даже можете экспортировать все модели, на которых работают наши помощники, прямо в свои приложения. Если вы хотите в деталях понять, как работает Hasty и как начать гибкую разработку приложений компьютерного зрения, иди сюда.

Есть еще много всего.

Отправной точкой для Хэсти является наш инструмент аннотации следующего поколения, но мы постоянно работаем над новыми функциями и решениями для всего маховика данных. Например, мы уже предоставляем API-поддержку, поэтому вы можете загружать изображения в инструмент аннотации для повторного обучения.

Следующая большая функция, которая будет выпущена, наша лаборатория моделей, позволит вам развертывать модели и экспериментировать с различными архитектурами в приложении, что еще быстрее поможет вам перейти в статус маховика.

Кроме того, мы только начали сообщество инженеров машинного обучения в области компьютерного зрения. Мы не верим в серебряные пули, и многие проблемы еще остаются с Vision AI - наше сообщество позволяет опытным и начинающим практикам ML задавать вопросы, делиться своим опытом и учиться друг у друга.

Мы приглашаем вас присоединиться к нам сегодня и получать пользу от сообщества таких же людей, как вы, создавая технологии и инструменты, которые вам нужны сегодня. Присоединяйтесь к нашему сообществу прямо сейчас.