Как искусственный интеллект меняет историю исследований рака

Компьютерщики Университета Британской Колумбии и эксперты BC Cancer Registry используют дедушку ChatGPT для обработки невыполненных лабораторных отчетов

Джефф Гиллиард

Ученый-компьютерщик Университета Британской Колумбии доктор Рэймонд Нг бросил биологию, когда окончил среднюю школу, поэтому, когда его впервые попросили просмотреть статью по геномике, он громко расхохотался.

Но оказалось, что статья была не о ДНК. Речь шла о данных.

Это было 25 лет назад, и лампочка, вспыхнувшая над головой доктора Нг, должно быть, осветила комнату. По мере развития своей карьеры он начал применять науку о данных к геномике, а затем и к медицинским данным. Он также начал изучать обработку естественного языка (NLP) и увидел огромную возможность объединить ее с большими данными, полученными в результате биомедицинских исследований.

«Искусственный интеллект имеет огромный потенциал для системы здравоохранения, — говорит доктор Нг. «Я действительно верю, что, используя автоматизацию и алгоритмы, мы сможем сделать медицину лучше и оказывать медицинскую помощь дешевле и быстрее».

Прекрасная возможность доказать свою точку зрения возникла, когда Управление здравоохранения провинции Британской Колумбии (PHSA) попросило доктора Нг и Институт науки о данных UBC устранить засорение в конвейере данных, чтобы обеспечить более своевременные данные для исследований рака и планирования здравоохранения.

Реестр раковых заболеваний Британской Колумбии (BCCR) собирает данные обо всех онкологических заболеваниях, диагностированных в провинции, начиная с 1970-х годов. Реестр является важным инструментом для системы здравоохранения Британской Колумбии — он позволяет планировщикам и политикам отслеживать новые диагнозы рака, тенденции развития основных видов рака, а также то, как новые программы и методы лечения улучшают выживаемость пациентов.

Но до недавнего времени B.C. столкнулась с двухлетним отставанием в регистрации случаев раковых заболеваний, подлежащих регистрации, в базу данных. Отставание отражает проблемы, с которыми сталкиваются онкологические регистры не только в Британской Колумбии, но и по всей Канаде и во всем мире.

Доктор. Раймонд Нг: ​​«Я хочу, чтобы моя работа производила впечатление»

«Этого просто недостаточно для отслеживания того, насколько хорошо новые программы скрининга и методы лечения снижают бремя рака», — говорит доктор Джонатан Симкин, научный директор Онкологического реестра Британской Колумбии. «Нам нужно знать, сколько пациентов осматривают и диагностируют каждый год, чтобы мы могли подготовить достаточно медицинских работников, программ и услуг для поддержки тех пациентов, которые проходят лечение».

«Если мы сможем сократить это время задержки, мы сможем помочь подготовить систему здравоохранения к более быстрой оценке этих программ для людей», — говорит д-р Нг. «Это моя цель — я хочу, чтобы моя работа имела влияние».

Большая часть информации, загружаемой в базу данных BCCR, поступает из более чем 500 000 электронных отчетов о патологии, ежегодно создаваемых больницами и лабораториями Британской Колумбии. BCCR использует систему под названием eMaRC Plus (электронное картографирование, отчетность и кодирование), стандартную систему анализа текста, для извлечения соответствующей информации из текстовых записей о патологии.

Но eMaRC не основан на современных методах НЛП, таких как большие языковые модели. Хотя он выявлял все раковые заболевания, подлежащие регистрации, диагностированные в результате патологии в Британской Колумбии, он также неправильно маркировал большое количество отчетов, в которых не упоминался рак, подлежащий регистрации. Хотя eMaRC помогает ускорить процесс проверки для поддержки планирования и оценки программы, увеличение числа отчетов с неправильными метками привело к задержке в системе и увеличению объема работы для команды BCCR.

Доктор. Джонатан Симкин: «Нам нужно знать, сколько пациентов ежегодно осматривается и диагностируется»

Чтобы обеспечить достоверность базы данных, высококвалифицированные регистраторы опухолей просматривают все отчеты, чтобы отсеять нераковые отчеты, неправильно помеченные eMaRC. Даже если регистраторам требуется всего минута, чтобы прочитать каждый отчет о патологии, в сумме получается много времени, которое можно было бы потратить с большей пользой на решение сложных вопросов, связанных с классификацией опухолей и специализированных видов рака.

«Ручная проверка документов для классификации рака требует больших усилий», — говорит Кэти Маккей, отвечающая за качество данных реестра, отчетность и оценку для PHSA. «Обучение регистратора опухолей занимает три месяца для каждой группы рака. И у нас есть около 20 типов групп рака, которые нужно закодировать».

«Если бы мы могли разработать алгоритм, который мог бы проверять каждый отчет за одну минуту, каждую ночь вы могли бы устранять отставание в этот день», — говорит доктор Нг. «Это экономия денег, экономия времени и решение проблемы нехватки рабочей силы».

Большинство систем НЛП основаны на «языковой модели», очень большой нейронной сети, обученной на огромном количестве немаркированного текста — например, на всей сети — в процессе, известном как «глубокое обучение». Полученная модель много знает о значениях слов и синтаксисе, что позволяет ей понимать нюансы языка. За последние четыре года оно преобразовало НЛП.

Глубокое обучение, однако, не является интуитивным — процесс настолько непрозрачен и непонятен, что его окрестили «черным ящиком». Команда доктора Нг из Data Science Institute выбрала более прозрачный и удобный подход к построению конвейера NLP BCCR.

«Если вы хотите убедить клиницистов в системе здравоохранения использовать ИИ, вы не можете сказать: «Я не знаю, почему, это просто работает». Это неприемлемый ответ. С самого начала мы хотели построить объяснимую модель, которая выполняет свою работу, и мы хотели, чтобы опытные регистраторы опухолей понимали, почему алгоритм скажет, что рак подлежит регистрации или нет».

Доктор Нг применил современный подход к обучению НЛП, называемый «вопрос и ответ», используя блок-схему вопросов, которые регистратор опухолей человека задавал бы при классификации рака в отчете о патологии. Верные или ложные ответы сообщают о следующем вопросе в логической последовательности.

«Это похоже на игру Mastermind или Wordle — вы пытаетесь угадать слово, задавая вопросы на основе предыдущих ответов», — говорит доктор Нг. «По сути, мы используем НЛП, чтобы играть в игру «Есть ли инвазивная карцинома?» В зависимости от вопроса мы задаем второй вопрос, чтобы быть уверенным, и третий, чтобы сделать вывод. Мы просто кодируем человеческую логику с помощью НЛП».

Работая с командой регистра рака, чтобы узнать, как регистраторы опухолей кодируют отчеты о патологии, команда DSI совместно разработала вопросы, чтобы процесс обучения модели был прозрачным и понятным.

Кэти Маккей: "Пилотный проект был чрезвычайно успешным"

«Это не такой уж черный ящик, как многие другие инструменты обработки данных, потому что Рэймонд и его команда включили в конвейер знания о кодировании и реестре опухолей», — говорит Маккей. «Это внутреннее и индивидуальное».

Модель была обучена на данных BCCR за два года, которые уже были проверены регистраторами-людьми. Ошибки были проанализированы, чтобы определить, где модели пошли не так. Развертывание системы заняло относительно немного времени, поскольку эксперты BCCR были уверены в модели. Они поняли, как работает процесс принятия решений.

После первоначального проектирования в начале 2021 года новая система была протестирована в рамках пилотного проекта, который проходил с сентября по ноябрь 2022 года.

«Пилот был чрезвычайно успешным, — говорит Маккей. «Поток данных BCCR теперь проходит через эту модель. Теперь, когда мы работаем в производственной среде, мы видим не менее 75% точности в отсеивании ошибочно помеченных отчетов — и этот показатель со временем улучшается».

Модель регулярно контролируется, чтобы гарантировать, что в процессе удаления нераковых заболеваний фактические раковые заболевания не будут случайно удалены из набора данных. Этот процесс обеспечивает обратную связь для постоянного улучшения модели.

«Это помогает нам фильтровать отчеты, чтобы мы могли затем передать их нашей команде по лечению рака для более своевременного кодирования данных», — говорит доктор Симкин. «Кроме того, новая система позволяет нам перераспределять регистраторы опухолей для выполнения более сложных задач».

Каждая провинция и территория в Канаде имеет свой собственный раковый регистр и внимательно следит за новой моделью BCCR. Эта модель, по словам доктора Симкин, может быть адаптирована не только к канадским реестрам рака, но и к регистрам в США и других странах. BCCR является частью международной системы эпиднадзора за раком, которая предоставляет данные Всемирной организации здравоохранения (ВОЗ), которая затем координирует глобальные инициативы по профилактике рака. Во всем мире раковые регистры кодируют свои отчеты в соответствии со строгими международными правилами, чтобы обеспечить сопоставимость наборов данных.

Вместо того, чтобы заново изобретать велосипед, доктор Нг построил конвейер NLP BCCR, используя варианты BERT (двунаправленные представления кодировщика от трансформеров), которые являются первой крупной языковой моделью. Этот дедушка ChatGPT не может нарисовать картину, написать любовное письмо или сочинить песню, но он очень полезен при анализе медицинских данных. Созданный в 2019 году компанией Google и доступный бесплатно, BERT предварительно обучен на англоязычных статьях Википедии и Торонто Книжном корпусе. Затем Microsoft выпустила медицинский вариант, который прошел дополнительное обучение на статьях PubMed.

Поскольку конвейер NLP был построен с использованием технологий с открытым исходным кодом, а также с учетом того, что многие раковые регистры в Северной Америке уже получают отчеты о патологии в электронном виде, модель BCCR потенциально может использоваться совместно. Обучение модели вопросам и ответам было проверено экспертами по кодированию опухолей BCCR и тщательно задокументировано, поэтому, когда другие регистры решат принять модель, у них будет четкое понимание того, как она работает. И BERT был разработан, чтобы быть «настраиваемым», поэтому, если патологоанатомы изменят способ кодирования определенных видов рака, алгоритм можно легко настроить и переобучить.

«Что действительно приятно, так это то, что во всех этих дискуссиях о ChatGPT и людях, беспокоящихся об ИИ, у нас есть конкретный пример, когда при правильном использовании ИИ может быть очень полезным», — говорит доктор Нг.