Уроки, извлеченные в Merantix: разница между академией и промышленностью

Мотивация

В прошлые выходные я провел некоторое время дома со своей семьей и начал размышлять о последних двух годах, прошедших с тех пор, как я учился в университете, включая все волнения и проблемы, которые я испытал на разных этапах моей карьеры. Увидев как академические исследования, так и отраслевые исследования в контексте глубокого обучения, я заметил, что есть довольно много различий в повседневной жизни и применяемых методах.

По этой причине в этом сообщении в блоге я хочу поделиться некоторыми мыслями о различиях между академическим сообществом и промышленностью при применении глубокого обучения к реальным проблемам, которые мы испытывали в Merantix за последние два года. Помимо прочего, я подробно расскажу о различиях, касающихся рабочего процесса, общих ожиданий, а также производительности, дизайна модели и требований к данным.

С момента основания Merantix в 2016 году мы создали несколько растущих предприятий в области искусственного интеллекта в очень интересных, но сложных отраслях. Это включает в себя здравоохранение с упором на автоматическую диагностику изображений для маммографии или автомобилестроение, предоставляющее среду тестирования на основе сценариев для полностью автономного программного обеспечения для вождения. Помимо своих предприятий, в 2018 году Merantix открыла новое подразделение, MX Labs, которое использует возможности и технологии всех других предприятий для изучения новых сценариев использования и разработки решений для конкретных клиентов вместе с нашими партнерами во многих отраслях.

Справедливо сказать, что за последние два года мы создали хорошо узнаваемый бренд в исследовательском сообществе, а также установили прочные отношения с отраслевыми экспертами и политиками. За это время у нас была возможность извлечь собственные очень важные уроки, и поэтому теперь мы чувствуем себя способными поделиться с вами некоторыми из наших наиболее важных идей.

Небольшой отказ от ответственности:

  • Я охватываю список проблем и уроков, который не является исчерпывающим, но дает структурированный обзор основных тем, с которыми мы сталкиваемся в разных отраслях.
  • Различные рабочие процессы в научных кругах и промышленности, описанные ниже, представляют собой упрощенную версию реальных процессов.
  • Хотя мы в основном занимаемся глубоким обучением с учителем, многие задачи и выводы обобщаются и применимы для других типов машинного обучения.
  • Возможно, не весь контент является для вас новым, но, надеюсь, вы сможете убрать хотя бы несколько баллов.

Академия vs промышленность

Пытаясь применить глубокое обучение, полученное в результате исследований, в приложениях, можно в общих чертах различать коммерческие и технические проблемы. Коммерческие проблемы включают препятствия, такие как получение достаточного доступа к обучающим данным, оптимизация соответствия продукта рынку, соблюдение законов и нормативных требований и, в конечном итоге, успешный выход на рынок. Тем не менее, это сообщение в блоге будет в основном сосредоточено на технической стороне, и в дальнейшем я постараюсь как можно больше ссылаться на отраслевой опыт.

Что наиболее важно, необходимо понимать различия в том, как работают академические круги, и в промышленности, то есть различные требования и причины, стоящие за ними, а также рабочие процессы самих этих двух организаций.

В академических кругах исследователь обычно начинает с фиксированного набора обучающих данных, такого как MNIST или ImageNet, на котором он хочет обучить конкретную модель. Конечная цель - разработать новые методы или адаптировать существующие методы, чтобы повысить производительность модели на несколько процентных пунктов по сравнению с текущим уровнем техники. Поступая таким образом, исследователь устанавливает новый уровень развития науки и может опубликовать свои результаты в статье. Несмотря на то, что этот процесс сложный и утомительный, он относительно прост.

Однако отраслевые рабочие процессы часто бывают обратными. Вы начинаете с фиксированных требований к производительности, скажем, стремитесь к обнаружению рака на 90-95% при маммографических обследованиях (существует компромисс между чувствительностью и специфичностью) или вызываете только одну серьезную аварию или отключение каждые 1 миллиард миль. Только после этого вы начинаете думать о развертывании конкретной модели и о том, какие обучающие данные потребуются, чтобы в достаточной степени обучить эту модель требованиям к производительности. Фактически, существует большая гибкость в отношении модели и данных, и ни один из них не должен быть современным, если они соответствуют требованиям варианта использования. Однако могут быть и другие ограничения, такие как объяснимость или быстрое вмешательство, как я подробно объясню ниже.

В целом, очень важно различать академические круги и промышленность и особенно помнить о том, что рабочие процессы противоречат друг другу, как показано на рисунке выше. Это, в свою очередь, имеет большое значение для успешной реализации исследований. Поэтому я рассмотрю некоторые идеи, которые мы собрали в Merantix за последние два года, в трех главах, охватывающих 1) производительность, 2) модель и 3) данные.

1. Производительность

Выполните бинарные критерии успеха

При разработке и коммерциализации продуктов, основанных на машинном обучении, важно понимать, что существуют довольно «бинарные» критерии успеха по сравнению со статистическими метриками академических кругов, которые определяют постоянный успех по сравнению с текущим уровнем исследований. В то время как в академических кругах производительность 70% в отношении конкретной задачи машинного обучения может быть замечательным успехом (если она лучше по сравнению со всеми остальными), коммерческие приложения требуют высочайшей степени функциональности и надежности. Фактически, это приводит к частично искаженному, предвзятому и иррациональному восприятию систем искусственного интеллекта сегодня. Соответственно, единственная авария автономного транспортного средства Uber со смертельным исходом в марте 2018 года, похоже, привлекла больше внимания в средствах массовой информации, чем 1,3 миллиона смертей в результате дорожно-транспортных происшествий по вине водителей-людей каждый год. Это означает, что даже если алгоритм машинного обучения в среднем лучше, чем люди при вождении автомобилей или обнаружении рака, одна катастрофа со смертельным исходом или ложноотрицательный результат, вероятно, будут восприняты как хуже. По этой причине очень важно установить правильный объем производства, а также понять и сформировать общественное восприятие.

Определите (и ограничьте) объем продукта

Что касается упомянутых выше бинарных критериев успеха, существует множество вариантов использования машинного обучения с очень жестким порогом ошибки, ниже которого не может быть никакого коммерческого успеха. Это означает, что не будет ни одной компании, продающей автономные транспортные средства, которые время от времени падают, и ни один радиолог никогда не купит программное обеспечение, которое не выявляет время от времени рак - это верно, даже если алгоритм в среднем превосходит людей.

По этой причине установка правильной области и, таким образом, ограничение вашей производительности определенной средой или вариантом использования является одним из наиболее важных шагов в разработке продукта машинного обучения. Вообще говоря, маловероятно или чрезвычайно амбициозно ожидать идеальной общей производительности вашей модели. Однако коммерческий успех зависит, по крайней мере, в такой же степени от настройки объема продукта, как и от фактической производительности нейронной сети. Обычно, если машина работает так же хорошо или лучше, чем человек, она начинает становиться коммерчески интересной. Однако даже в тех случаях, когда производительность еще недостаточно высока, есть два варианта добавления коммерческой ценности:

  1. Ограничение среды: ведущие технологические компании и производители комплектного оборудования в автомобильной промышленности реализуют эту стратегию, определяя так называемую область рабочего проектирования (ODD) для автономного вождения. ODD описывает рабочие условия, при которых данная система автоматизации вождения или ее функция специально предназначена для работы, включая, помимо прочего, экологические, географические и временные ограничения и / или необходимое присутствие или отсутствие определенного движения. или характеристики проезжей части. Другими словами, заявляя, что автономные транспортные средства будут изначально ограничены определенными районами города, автобусными линиями или шоссе, они ограничивают объем своего продукта и, таким образом, могут гарантировать определенную производительность и надежность.
  2. Рассмотрение модели как вспомогательной системы: В качестве альтернативы, если производительность еще не достаточно высока для полностью независимого и общеприменимого продукта, есть возможность продать модель как систему поддержки принятия решений, поскольку она вполне распространены в здравоохранении. Так называемые компьютерные системы обнаружения (САПР) служат «вторым взглядом», чтобы радиологи не пропустили ни одной подозрительной области на изображении. Они не обеспечивают диагностику, но они могут анализировать закономерности, идентифицировать и отмечать подозрительные области, которые могут содержать аномалию. На втором этапе эти знаки тщательно проверяются и классифицируются профессионалом. Еще одна отрасль, в которой мы рассматриваем модели машинного обучения как вспомогательные системы, - это расширение обслуживания и поддержки клиентов. Хотя производительности будет недостаточно для полной замены людей, могут быть предприняты некоторые переходные шаги, и системы могут помочь оптимизировать процессы для повышения общей эффективности (например, расширенный обмен сообщениями, улучшенные телефонные звонки, организованные запросы по электронной почте).

Прогнозировать неопределенность

Модель глубокого обучения, развернутая в практическом приложении, всегда будет возвращать прогноз независимо от входных данных. Однако для многих приложений полезно также получить связанную с прогнозом неопределенность. В случае медицинской визуализации алгоритм сможет сделать прогноз для любого типа входного изображения, в то время как на основе неопределенности можно решить, следует ли врачу перепроверить результат. Можно подумать, что вероятности softmax можно использовать для этого как меру неопределенности. Однако это большое заблуждение, поскольку это можно увидеть на рисунке для задачи двоичной классификации: передача точечной оценки среднего значения функции в softmax приведет к очень надежному прогнозу. Когда вместо этого распределение (заштрихованная область) пропускается через softmax, среднее значение вывода будет намного ниже (около 0,5).

В традиционном машинном обучении байесовские методы использовались, когда неопределенность играла роль. Недавно появившаяся область байесовского глубокого обучения пытается объединить два мира. Хотя большинство предложенных методов пока показали ограниченные результаты и часто сопряжены с большими вычислительными затратами, эта область остается многообещающей, и за ней следует внимательно следить.

Знайте свою целевую среду

Чтобы успешно развернуть систему машинного обучения, необходимо убедиться, что она будет работать не только на обучающих наборах, но и в реальном мире. В машинном обучении для измерения производительности модели вы обычно сначала обучаете ее на отдельном наборе обучающих данных, а затем используете отдельный набор тестовых данных для оценки. Для последнего крайне важно, чтобы данные были как можно более похожи на реальный мир, в надежде, что модель также будет работать на практике после успешного прохождения тестового набора. Однако этот процесс и особенно разработка наборов тестовых данных может быть очень сложным, поскольку необходимо действительно хорошо понимать целевую среду, то есть знать соответствующий контекст, динамические элементы и влияние на саму среду. Чтобы подробнее разобраться в этом вопросе, давайте рассмотрим несколько отраслевых примеров для каждой категории:

  1. Релевантный контекст: понимание релевантного контекста означает знание всех возможных элементов, условий и их результатов в отношении целевой среды. В контексте автономного вождения это включает в себя детальное знание города, погоды, агентов и всех других важных факторов до разработки фактического набора тестов. Что касается медицинского зрения, это будет означать понимание различий в технологиях и качестве изображений, а также различий между настройками скрининга и диагностики.
  2. Динамические элементы. Еще один шаг - понимание целевой среды включает в себя все естественные, неизбежные изменения с течением времени и, следовательно, не ограничивается определенной датой или моментом времени. Представьте себе обучение и тестирование модели в среде, содержащей только конные экипажи. К тому времени, когда вы захотите развернуть свою систему, машины будут ездить по каждой улице. Хотя это слишком упрощенный и преувеличенный пример, становится очевидным, что OEM-производителям и технологическим компаниям рано или поздно понадобятся данные для обучения, включающие автономные транспортные средства, передвигающиеся по окрестностям. С другой стороны, компаниям, специализирующимся в области медицинского зрения, необходимо будет скорректировать наборы тестов с учетом изменений в техническом оборудовании.
  3. Воздействие на среду. Воздействие развернутой модели на целевую среду - самый сложный аспект понимания целевой среды, поскольку его нельзя легко измерить и предвидеть во время тестирования. Одним из примеров может служить реакция пешеходов на рост числа автономных транспортных средств в их среде. Вполне возможно, что некоторые пешеходы захотят перейти улицу на переходе, если увидят полностью оборудованный автономный автомобиль без водителя. Что касается медицинских и маммографических обследований, эти трудности могут быть обнаружены, когда развернутое программное обеспечение предвзято относится к рентгенологам, которые его используют. В качестве альтернативы, поскольку такое решение обеспечивает большую осуществимость и доступность, общая численность и распределение могут со временем меняться.

В заключение, приведенные выше примеры подразумевают, что крайне важно продолжать создание новых и более точных наборов тестов из-за изменений в данных и целевой среде, даже если программное обеспечение уже развернуто и работает.

Не переоснащайте свой тестовый набор

Последнее представление о производительности еще раз связано с использованием наборов тестов. Исследования Recht et al. (2018) показал, что впечатляющая точность наиболее эффективных моделей могла быть обусловлена ​​многократным использованием одних и тех же неизменных наборов тестов в течение многих лет. При сборе нового набора невидимых изображений классификаторов CIFAR-10 для тестирования модели, который очень похож на исходный в отношении распределения данных, наблюдается большое падение точности на 4-10% для различных ранее наиболее эффективных глубоких обучающие модели. Это демонстрирует, что выдающаяся производительность этих моделей во многих случаях была основана на так называемом переобучении - в данном случае на тестовом наборе данных.

Возвращаясь к применению исследований машинного обучения в приложениях, приведенные выше результаты подразумевают следующее: даже в случае очень хорошего набора тестов, который адекватно представляет реальный мир в соответствии с предыдущей главой, всегда нужно учитывать возможность косвенного переобучения. к конкретному набору тестов после предварительной оценки производительности модели на тех же самых тестовых данных - возможно, даже много раз. Чтобы свести к минимуму этот риск, рекомендуется проводить оценку на «реальном тестовом наборе» как можно реже или хотя бы один раз. При необходимости все еще можно протестировать на другом наборе для проверки, и в целом рекомендуется продолжать обновлять набор тестов на регулярной основе.

2. Модель

Согласование функции потерь с бизнес-целью

При разработке модели очень важно оптимизировать для правильного аспекта и согласовать метрику производительности с правильной учебной задачей или бизнес-целью, то есть установить функцию потерь как можно ближе к полезности пользователя. В контексте торговли, например, вместо оптимизации для точного прогнозирования поведения рынка на самом деле более полезно разработать функцию потерь в зависимости от прибыльности. Более того, в отношении здравоохранения, вместо того, чтобы стремиться к максимально возможной точности массового обнаружения, оптимизация для нескольких ложноотрицательных результатов может быть наиболее эффективной. В случае скрининга на рак груди 97% всех обследований проходят нормально. Вот почему мы настраиваем нейронную сеть, чтобы автоматически отличать подозрительные исследования от нормальных, предоставлять структурированные отчеты для обычных экзаменов без участия человека, фильтровать и пересылать сложные случаи специалистам-специалистам-специалистам, одновременно обеспечивая поддержку принятия решений на основе рисков. Этот процесс мы называем умным устранением.

Учитывайте неравную стоимость ошибочной классификации

Хотя никаких реальных затрат на модель исследования, неверно классифицирующую изображение собаки как кошки, не возникает, негативные последствия в реальном применении могут быть огромными. Это особенно актуально в здравоохранении, где затраты не только денежные, но и влияют на здоровье человека. Цель маммографических обследований - выявить рак у бессимптомных женщин. Потенциальные результаты маммографического скрининга представляют собой сочетание состояния здоровья женщины (здоровая / больная) и соответствующего диагноза (положительный / отрицательный). Классификация эффективна, когда здоровому пациенту ставят отрицательный диагноз, а больному - положительный. Однако классификация может потерпеть неудачу с неодинаковыми негативными последствиями. Если здоровому человеку поставят неправильный диагноз рака (т.е. ложноположительный результат), ему без надобности будет сделана биопсия, которая может привести к психологическому стрессу и физиологическим побочным эффектам. Хотя эти последствия и без того серьезны, ошибочная диагностика больного пациента как здорового (т.е. ложноотрицательный) еще более серьезна, поскольку резко увеличивает смертность.

Сделайте вашу модель понятной

В отличие от академического мира, где все решают вопросы производительности и точности, объяснимость и прозрачность имеют большое значение в промышленности. Другими словами, ни отрасль, ни регулирующий орган не любят черные ящики нейронных сетей, то есть системы, содержащие входы и выходы без какого-либо знания об их внутренней работе. Во многих случаях может быть очень трудно понять причины, по которым алгоритм дает конкретный ответ на набор входных данных.

Кроме того, в некоторых приложениях машинного обучения речь идет не о самой модели, а о понимании базовой системы. Например, компания может быть больше заинтересована в понимании динамики и причин оттока клиентов с точки зрения бизнеса, а не в постепенной оптимизации с помощью приложений машинного обучения.

Тем не менее, существует огромное противоречие в отношении сложности и объяснимости нейронных сетей: глубокое обучение используется потому, что реальный мир не может быть описан простыми правилами. Другими словами, сложные варианты использования требуют сложных моделей. Следовательно, будет очень сложно придумать простое правило, объясняющее саму систему глубокого обучения. Поскольку сложность модели обычно не пропорциональна ее объяснимости, мы часто видим компромисс в различных случаях использования.

Тем не менее, следует отметить, что в этой области наблюдается растущее поле исследований. Визуализация глубоких нейронных сетей становится все более актуальной. Используя эти методы, можно будет проверить, действительно ли модель классифицирует изображения на основе соответствующего объекта, а не на основе коррелированного. Например, мы сможем определить, распознает ли модель лодки, по самой лодке, а не по морю, окружающему лодку. Однако при использовании этих методов нужно быть осторожным. Как показано в недавней статье Adebayo et al. (2018) , где они описывают набор рандомизированных экспериментов для проверки этих методов, некоторые из методов могут быть визуально приятны для людей, но не дают никаких объяснений относительно того, как параметры модели связаны с входными данными или взаимосвязью между входными данными. данные и их метки.

В прошлом году в Merantix мы открыли исходный код инструментария визуализации глубокого обучения под названием Picasso (Medium Post, Github). Поскольку мы работаем с различными архитектурами нейронных сетей, мы разработали Picasso, чтобы упростить просмотр стандартных визуализаций наших моделей в различных отраслевых приложениях.

Размер имеет значение

При проектировании нейронных сетей для промышленных приложений размер модели - еще один очень важный аспект, который следует учитывать, поскольку он влияет на производительность. В промышленном мире мы сталкиваемся с вычислительными ограничениями, а также с ограничениями связи, такими как ограниченная память, пропускная способность или скорость выполнения. Принимая это во внимание, очевидно, что одна из ключевых проблем, связанных со сложными глубокими нейронными сетями, - заставить их работать быстрее и на менее качественном оборудовании без значительной потери точности. Давайте еще раз возьмем автономное вождение в качестве примера: если ваша цель - идентифицировать пешеходов, прогнозировать их действия и регулировать движение автомобиля в режиме реального времени, то упрощение и ускорение ваших моделей становится одной из самых важных задач для их безопасного развертывания. Это особенно верно, когда из-за ограничений аппаратного обеспечения можно поместиться в одну машину. Как следствие, в настоящее время проводится множество исследований в области сжатия моделей с целью ускорения вывода, например Cheng et al. (2017) .

Современные модели часто не требуются

Очень тесно связанный с предыдущим аспектом размера и сжатия, мы в Merantix часто приходили к выводу, что когда дело доходит до дизайна модели, новейшие современные подходы не всегда могут быть лучшим выбором. Фактически, многие модели и приложения чрезмерно спроектированы для постепенного повышения их производительности, но в реальном приложении это улучшение может не стоить времени и ресурсов, необходимых для его достижения. Более того, часто эти блестящие новые методы, которые выглядят чрезвычайно многообещающими на бумаге, тестируются только на очень простых наборах данных, таких как MNIST, и не работают с более сложными и разнообразными данными реального мира. Тестирование на таком небольшом и простом наборе данных не только влечет за собой риск переобучения, но и не гарантирует масштабируемости вычислений для более крупных наборов данных. В реальных и промышленных приложениях мы заботимся о обобщаемых моделях, которые работают в различных ситуациях и сценариях, чтобы обеспечить надежные и устойчивые системы. По этой причине не всегда полезно пытаться реализовать современные модели и исследовательские работы.

3. Данные

Рассмотрите возможность компромисса с точки зрения затрат при сборе данных или маркировке

После того, как бизнес-цель, желаемая производительность и дизайн модели установлены, возникает вопрос о том, как собрать обучающие данные. Вообще говоря, можно различать три типа данных: 1) существующие и помеченные данные, 2) существующие, но немаркированные данные и 3) отсутствующие данные.

Что касается первого типа, уже помеченных данных, необходимо выяснить, какие стратегии выборки должны быть выполнены и на каком конкретном наборе данных должна быть обучена модель. Что касается второго типа, необходимо решить, какая часть существующих данных должна быть помечена, например для тренировки. В ситуациях, когда немаркированных данных много, а ручная маркировка обходится дорого, можно использовать такие методы, как «активное обучение», то есть попытаться выяснить, какие немаркированные данные при маркировке дадут наибольшую информационную выгоду для модели. и улучшить его максимально. Эта конкретная область исследований фактически приобрела большую популярность за последние два года, поскольку люди поняли, что в некоторых отраслях, таких как автономное вождение, может быть почти бесконечное количество данных, поэтому определение наиболее актуальных данных остается одной из самых больших проблем. Следовательно, за счет интеграции методов активного обучения можно снизить стоимость сбора обучающих данных без ущерба для производительности и точности модели. Наконец, что касается недостающих данных, необходимо оценить затраты и выгоды от сбора большего количества данных, в конечном итоге пытаясь охватить большинство слепых зон и угловых случаев.

Сосредоточьтесь на редких образцах

Особенно в реальном мире работа с данными означает борьбу с дисбалансом классов. Это означает, что в реальных наборах данных некоторые события крайне редки - так называемые крайние или угловые случаи. Эти редкие примеры очень сложно собрать снова, что приводит к высоким затратам на сбор данных. Тем не менее, они имеют решающее значение при попытке решить последний 1% самых сложных задач машинного обучения, таких как автономное вождение или обнаружение рака (см. Наш соответствующий Средний пост).

Как упоминалось ранее, при внедрении приложений машинного обучения в разработку продукта существуют бинарные критерии успеха. Например, для развертывания полностью автономных транспортных средств алгоритм должен уметь обрабатывать все виды возможных сценариев и рисков и, следовательно, также охватывать длинный хвост крайних случаев. Тем не менее, эти случаи очень сложно собрать или зарегистрировать в реальном мире, что делает тестирование и валидацию очень сложным, медленным и дорогостоящим процессом. Один из подходов, которые мы используем в Merantix для смягчения этих трудностей, - это тестирование на основе сценариев. В нем описывается методология тестирования непрерывных стеков программного обеспечения для автономных транспортных средств в автономном режиме по каталогу из тысяч очень коротких сценариев вождения. Эти сценарии могут быть основаны на реальных журналах регистрации или данных моделирования и очень тщательно определены и организованы. Идея состоит в том, чтобы взять за отправную точку способности человека, такие как выполнение незащищенных левых поворотов или обгон велосипедистов, и впоследствии очень конкретно курировать сценарии, которые проверяют эти возможности на полном программном стеке. Тестирование на основе сценариев используется многими лидерами отрасли, такими как Waymo или Uber. Он уникально полезен, потому что ускоряет разработку, оптимизирует использование ресурсов и действительно масштабируется для огромного количества тестовых примеров, транспортных средств и инженеров.

Получайте аннотации высокого качества

Последний важный аспект, который я хочу выделить в отношении данных, - это качество аннотаций. Поскольку ярлыки могут быть шумными, особенно когда они создаются людьми, необходимо быть очень осторожным при маркировке данных и мониторинге их качества с самого начала, а также на регулярной основе. Причина такого количества усилий и внимания - огромный ударный шум, который оказывает на общую производительность модели. Как показано на приведенном ниже графике, только небольшой процент повреждения этикеток приводит к довольно значительному уровню ошибок тестирования.

В то время как искажение этикеток может быть легко устранено для простых задач, которые имеют основную истину, то есть доказуемые объективные данные (сравнимые с золотым стандартом в медицине и статистике), это становится все труднее для сложных задач, таких как интерпретация медицинских изображений. Когда выполняется маммография, грудь с помощью рентгеновских лучей проецируется на двумерное черно-белое изображение, которое содержит гораздо меньше информации, чем сама реальность. Соответственно, основную истину для злокачественного заболевания нелегко определить на изображениях маммографии, и ее можно получить только путем исследования ткани, взятой с помощью биопсии. К сожалению, исследований, подтвержденных биопсией, мало, их трудно получить, и они существуют не для всех вариантов использования. Кроме того, сложность считывания изображений маммографии сама по себе может привести к значительной вариативности интерпретации радиологами, а также к высокому уровню шума на этикетках.

В Merantix мы внедрили множество процессов и проверок, которые помогают свести к минимуму изменчивость считывателя и шум этикеток. Радиологи проходят индивидуальное обучение, в ходе которого они изучают подробные инструкции по аннотации. После завершения обучения каждому рентгенологу необходимо пройти тест на выборочном наборе данных, чтобы начать комментировать для нашей компании. Кроме того, мы разработали автоматический тест, который постоянно отслеживает и сравнивает качество аннотаторов с их аналогами. Наконец, мы создали сценарий, который отмечает исследования для контроля, если аннотации отличаются от результатов в ретроспективных радиологических отчетах.

Заключение

В этом сообщении в блоге я поделился различными знаниями, которые демонстрируют различия между научными кругами и промышленностью в области машинного обучения, а также некоторыми идеями, которые мы собрали в Merantix при применении глубокого обучения к реальным проблемам. Что я хотел бы, чтобы вы вынесли из этого сообщения в блоге, так это то, что рабочие процессы двух миров, академического сообщества и промышленности, на самом деле противоречат друг другу, что приводит к различным последствиям и требованиям к общей производительности, дизайну модели и наборам данных. Я очень надеюсь, что некоторые из идей и подходов, упомянутых выше, могут быть полезны и применимы для других людей, которые планируют использовать глубокое обучение в своем бизнесе. Если у вас есть какие-либо комментарии или вопросы, пожалуйста, напишите мне! Если вам нравится применять глубокое обучение к реальным проблемам, подумайте о присоединении к нам в Берлине. "Мы нанимаем"!

Благодарности

  • Себастьяну Спиттлеру за помощь в написании этой статьи.
  • Роберту, Флориану, Максимилиану и Тайсу за ценный вклад.
  • Клеменсу и Джону за рецензию и отзывы на эту статью.