Обновление проекта Skychain за март 2021 г.

Привет, сообщество Skychain!

В этом обновлении разработки мы будем делиться последними новостями о развитии проекта, в частности о проведенном нами внутреннем тестировании.

В феврале мы провели внутреннее тестирование нашего продукта по обнаружению рака простаты. На данном этапе нам очень важно выявить все возможные слабые места нашего продукта, чтобы сделать над ним финальную работу на пути к выходу на рынок.

Подготовка

Тест проводился в феврале при поддержке отделения патологии Московской центральной больницы, которое является нашим партнером с самого начала. В ходе теста мы сравнили результаты диагностики трех участников:

врач-патологоанатом Московской центральной больницы со стажем работы от 1 года;
врач-патологоанатом Московской центральной больницы с 5-летним стажем работы;
Нейронная сеть рака простаты Skychain.

Все трое участников должны были проанализировать 108 цифровых слайдов, принадлежащих 10 разным пациентам. На каждом слайде также были представлены от 2 до 4 образцов биопсии. Каждый участник должен был проанализировать каждый образец биопсии и заполнить форму о том, какие нозологии обнаружены в образце. Перечень нозологий:

АТ (атрофия);
О (ацинарная карцинома)
PENST (пенистоклеточная карцинома);
PROT (протоковая карцинома);
ВВР (хроническое воспаление);
N (нормальная ткань);
ПИН (интраэпителиальная неоплазия предстательной железы).

Для каждого O (ацинарная карцинома) также предоставляется шкала Глисона. Шкала Глисона колеблется от 1 до 5 и описывает, насколько опухоль, полученная при биопсии, похожа на здоровую ткань (более низкий балл) или на аномальную ткань (более высокий балл). Большинство видов рака оценивается в 3 балла или выше.

Поскольку опухоли предстательной железы часто состоят из раковых клеток разной степени тяжести, каждому пациенту присваивается две степени злокачественности. Первичная степень дается для описания клеток, которые составляют наибольшую площадь опухоли, а вторичная степень дается для описания клеток следующей по величине области. Например, если показатель Глисона записан как 3 + 4 = 7, это означает, что большая часть опухоли имеет степень 3, а следующий по величине участок опухоли имеет степень 4, вместе они составляют общую сумму баллов по шкале Глисона. Если рак почти полностью состоит из клеток с одинаковой оценкой, степень для этой области подсчитывается дважды для расчета общей суммы баллов по шкале Глисона.

Кроме того, в случаях О (ацинарный рак) каждый участник должен был указать приблизительный процент опухоли на каждом слайде.

Все случаи были предварительно проанализированы экспертом-патологоанатомом с более чем 10-летним опытом, и все результаты были подтверждены в будущем. В качестве эталона принималось заключение эксперта.

Также учитывалось время, затрачиваемое каждым специалистом и нейронной сетью на их анализ.

Результаты

Мы получили результаты каждого участника на каждом конкретном слайде.

Пример заключения врача об одном из пациентов:
Слайд 1: О, ПИН, сумма баллов по Глисону 3 + 4 = 7, занимает 30% площади длина точки.
Слайд 2: O, PIN, оценка по Глисону 4 + 3 = 7, занимает 100% длины точки.
Слайд 3: O, оценка по Глисону 3 + 4 = 7 баллов, занимает 90 % длины точки.
Slide4: O, PIN, оценка по Глисону 3 + 3 = 6 баллов, занимает 90% длины точки.
Slide 5: O, PIN, оценка по Глисону 3 + 3 = 6 баллов, занимает 90% длины точки.
Слайд 6: O, ПИН, оценка по Глисону 3 + 3 = 6 баллов, занимает 80% длины точки.
Слайд 7: O, оценка по Глисону 4 + 4 = 8 баллов, занимает 50% длины точки.
Слайд 8: O, оценка по шкале Глисона 4 + 3 = 7 баллов, занимает 40% длины точки.
Слайд 9: O, PIN, оценка по Глисону 4 + 4 = 8 баллов, занимает 50% длины точки.
Слайд 10: O, оценка по Глисону 5 + 5 = 10 баллов, занимает 40% длины точки.
Слайд 10: O, оценка по Глисону 5 + 5 = 10 баллов 11: О, Гле ason Оценка 5 + 5 = 10 баллов, занимает 90% длины пунктата.
Слайд 12: N, небольшие столбики ткани предстательной железы без опухолевого роста.

Метки диагноза (O, PENST, PIN, PROT) и баллы Глисона относятся к категориальным переменным. Вы не можете применять обычные математические операции к категориальным переменным (кроме «равно» или «не равно»), даже если они являются числовыми значениями. Расчет коэффициента Каппа Коэна через матрицу ошибок подходит для оценки таких переменных. Каппа Коэна измеряет согласие между двумя оценщиками, каждый из которых классифицирует N элементов в C взаимоисключающих категорий.

Для каждого пациента оценки, предсказанные нейросетью, сравниваются с соответствующими оценками выбранных врачей и вычисляется каппа Коэна. Затем рассчитывается распределение этой метрики для выбранного врача.

Объяснение: каппа Коэна измеряет согласие между двумя оценщиками, каждый из которых классифицирует N элементов по C взаимоисключающим категориям. В нашем случае каппа Коэна будет рассчитываться на 108 тестовых слайдах для N экспертов + прогноз нашей нейросети, то есть мы получим N + 1 значений.

Каппа-формула Коэна:

где pо — относительное наблюдаемое согласие между оценщиками (одинаковыми по точности), а pе — гипотетическая вероятность случайного совпадения, использующая наблюдаемые данные для расчета вероятности того, что каждый наблюдатель случайно увидит каждую категорию.

Проще говоря, Каппа Коэна показывает, как мнение одного эксперта совпадает с мнением эталона. Чем он ближе к 1, тем больше мнения совпадают.

Как видите, тело розовой свечи (VHR) ближе к 1 в колонке Skychain. Это означает, что Skychain превосходит обоих экспертов в определении VHR (хроническое воспаление). То же самое можно однозначно сказать об этикетках AT и PENST. Что касается метки PROT, Skychain явно на 1, что означает, что у нее не было ошибок при идентификации протоковой карциномы. В других классах Skychain демонстрирует вполне сопоставимые результаты обоих экспертов.

Если мы усредним каппа Коэна для каждого пациента, 7 значений «схлопнутся» в одно. В итоге на 10 пациентов получаем 1 список средних элайнеров Коэна, который по-прежнему состоит из 10 элементов. Строим аналогичную схему.

По положению медианного значения врачей и Skychain можно сравнивать друг с другом в целом. Медианное значение обоих врачей коррелирует с их опытом, причем Skychain имеет лучшее медианное значение, чем оба эксперта.
По размеру квадратов можно сделать выводы о том, какой врач или нейросеть в целом более стабильны. Синее поле ниже оранжевого, а зеленые значения выше. Это говорит о том, что прогнозы Skychain по классам в целом несколько стабильнее и качественнее.

В целом можно сделать вывод, что Skychain опередил обоих экспертов в нескольких классах и показал вполне сопоставимые результаты в других.

Мы были весьма удивлены, увидев, что результаты нашей работы не уступают настоящим врачам. Однако предстоит еще многое сделать, так как мы можем ошибаться в диагностике нескольких классов. Мы планируем использовать больше данных о «слабых» категориях, чтобы показать лучшие результаты в нашем следующем тесте.

Но как насчет времени?

Конечно, поскольку скорость является одним из самых больших преимуществ ИИ, Skychain удалось провести анализ намного быстрее, чем оба эксперта.

Время, затраченное на анализ:

Патолог со стажем работы 1 год — ~5,5 часов
Патолог со стажем 5 лет — ~4,7 часа
Скайчейн — ~0,75 часа

Как видите, Skychain удалось выполнить работу гораздо быстрее.

Любопытный случай

Был также один любопытный слайд, о котором мы хотели бы рассказать вам больше.

Для этого образца ткани мы получили следующие результаты:

Патолог с 1 годом практики

O — 30%; AT, N

Патолог с 5-летним стажем

Скайчейн

О — 1,29%; VHR;AT;N

Эталонный стандарт

О — 1%; VHR;AT;N

Как видим, патологоанатом 1 года обнаружил наличие рака, но определил его, поразив не менее 30% площади ткани и не обнаружив признаков ВХР, хронического воспаления.

Патологоанатом с 5-летней практикой совершил большую ошибку, назвав эту ткань полностью нормальной.

Что касается Skychain, то он нашел все, что было указано в эталонном стандарте. Более того, поскольку ИИ более точно вычисляет площадь, он обнаружил наличие рака в 1,29% вместо 1% экспертом-патологоанатомом.

Этот конкретный случай достаточно показателен, так как рак был пропущен специалистом, имеющим 5-летний стаж (и до этого немало времени в мединституте). Если его пропустить, в течение 1 года он разовьется с 3 баллов по шкале Глисона до 4 или даже 5 по шкале Глисона, что значительно ухудшит прогноз для пациента и снизит шансы на выживание пациента.

Однако если этот специалист использовал Skychain, его нельзя было не заметить. Врач получил бы выделенный слайд, обратил бы внимание на наличие рака и, возможно, спас бы пациенту жизнь.

Спасибо за поддержку и следите за обновлениями!

С наилучшими пожеланиями,

Александр Оксаненко, команда Skychain

Присоединяйтесь к Skychain в социальных сетях: Twitter, Facebook, Telegram.

Если у вас есть какие-либо вопросы о Skychain, не стесняйтесь писать Александру Оксаненко в Telegram и по электронной почте: [email protected].