С возвращением в Lit Review, серию статей, в которых я читаю недавние статьи по науке о данных или связанные с ней статьи и делаю краткое изложение своих мыслей. На этой неделе мы поговорим о статье D. Benkeser et al. «Оценка и тестирование эффектов сита вакцин с помощью машинного обучения».

Полная ссылка: Benkeser, D., Gilbert, P. B., & Carone, M. (2019). Оценка и тестирование эффектов сита вакцины с помощью машинного обучения. Журнал Американской статистической ассоциации, 114 (527), 1038–1049 .

Эта статья значительно длиннее и технически больше, чем все статьи из этой серии. Я рекомендую бегло взглянуть; большинство моих комментариев будут относиться к разделу 1, с некоторыми отсылками к разделам 3–4.

Немного процедить

Первое, что я хотел бы затронуть, - это не механика как, а мотивация почему. Как я уже говорил, это сложная плотная бумага. Одно из неправильных представлений об исследованиях, с которыми я столкнулся, заключается в том, что настоящая наука о данных - это просто, а сложные методы просто сложны ради сложности. Эта статья представляет собой интересный наглядный урок, объясняющий, почему это неправильное восприятие, а не восприятие - эта статья является сложной и технической по очень веским причинам.

Начнем с вопроса, который, вероятно, возник у большинства читателей, в том числе и у меня, при чтении заголовка: что такое эффект сита и почему?

Короче говоря, это своего рода проблема "многие к одному". Популяции патогенов, ответственные за заболевания, не являются монолитными. Происходят мутации, возникают вариации, а различия в генетической последовательности могут приводить к различиям в белковых структурах. Эти различия в белковых структурах, в свою очередь, диктуют несколько разные способы взаимодействия с клеткой-хозяином и запуск болезни. В идеале иммунная система хотела бы знать все белковые структуры, с которыми ей придется столкнуться в дикой природе, поскольку это дает иммунной системе время для возможности дать отпор им в идеальных условиях. Однако большинство вакцин основано на небольшой группе штаммов патогенов. Это должно стать сигналом для многих - подумайте о ежегодных прививках от гриппа и о том, как еще можно заразиться гриппом, если вы в конечном итоге столкнетесь с другим штаммом гриппа.

Чтобы внести ясность, это ни в коей мере не является критикой процесса разработки вакцины. Даже если вакцина каким-то образом была основана на переписи всех штаммов патогенов, мутации все равно могут произойти, и могут возникнуть новые варианты.

Однако этот факт приводит к важному факту: существует возможность существования вакцины, которая эффективна против некоторых штаммов патогена, но имеет ограниченную эффективность против других штаммов. Таким образом, как описывают авторы, иммунореагирование на вакцину похоже на кухонное сито - хотя большая часть площади пропорционально заполнена, все еще остаются отверстия, через которые может выходить вода.

Здесь есть один важный вывод: отверстия не расположены случайным образом, а, скорее, определяются структурами белков, которые, в свою очередь, возникают из генетической последовательности. Предполагая, что мы установим последовательность патогена, которому подвергается участник испытания вакцины, мы можем выяснить, должна ли вакцина остановить этот конкретный штамм или нет.

Это, в свою очередь, может помочь нам выяснить, насколько хорошо работает вся кухонная решетка. Например, мы можем проверить, действительно ли сито, которое не пропускает много воды, хорошо работает, или вода падала туда, где не было отверстий; и наоборот, сито, которое, по всей видимости, не работает, может быть плохим ситом, или вода могла упасть в неудачных местах. (По общему признанию, в этот момент метафора начинает немного разрушаться.)

Я подробно остановился здесь, но думаю, на это есть веская причина: контекст здесь имеет решающее значение. Об этих эффектах сита не думают второстепенно - они представляют собой статистическую проблему очень высокого порядка и величины. Мы не можем их игнорировать. Остальная часть метода вытекает из этого факта: эффекты сита действительно имеют значение, поэтому нам нужно выяснить, как анализировать данные, зная, что они существуют.

Конкуренция с рисками

Я полагаю, что довольно много читателей кивают в этом месте, когда я читал впервые. Хорошо, - подумал я, - , значит, у вас есть информативная ковариата. Все, что вам нужно сделать на этом этапе, это использовать его, верно? Именно здесь мы и сталкиваемся со вторым серьезным затруднением.

Бывают случаи, когда легко добавить ковариату. Это никогда не бывает тривиально - даже в обычной линейной регрессии методом наименьших квадратов важно убедиться, что вы, например, не вводите коллинеарность, но это может быть относительно без стресса.

Настройка данных для испытания вакцины с эффектом сита - не один из таких случаев. В этом мире существует множество штаммов (рисков), каждое из которых может привести к одному и тому же результату (заболеванию), но только одно из них может «победить» и вызвать исход первым. Фактически, различные риски конкурируют друг с другом, поэтому эта структура для лонгитюдного анализа данных называется конкурирующими рисками.

Я мог бы подробно рассказать, почему сложно добавить ковариаты в структуру конкурирующих рисков, но я бы предпочел, чтобы цитата из статьи говорила сама за себя:

На практике ковариационная корректировка часто выполняется с использованием методов, основанных на параметрических и полупараметрических моделях. Однако при оценке эффективности лечения в рандомизированных исследованиях статистики часто неохотно используют эти методы из-за риска неправильной спецификации модели. Огромное беспокойство вызывает то, что потенциальные выгоды, предоставляемые ковариатной корректировкой, могут быть нивелированы смещением, вызванным использованием неверно заданной модели (см. Gail et al., 1984).

По сути: если вы собираетесь добавлять ковариаты, вы должны делать это с умом. Когда вы используете параметрическую или полупараметрическую модель, даже если вы в основном правы, вы легко можете оказаться хуже, чем начали. Это не проблема, присущая лонгитюдной структуре конкурирующих рисков, но здесь она более важна, чем во многих других случаях, из-за силы предположений, которые вы должны сделать для добавления ковариат в параметрическую или полупараметрическую структуру.

Опять же, в этом суть сложности данной статьи. Мы не можем отказаться от ковариат - мы уже обсуждали почему, когда говорили о том, что такое эффект сита. Мы не можем отказаться от этой настройки данных - это более правильный способ описания механизма генерации данных, чем что-либо более простое. Единственная возможность, которую оставили авторы, - это нажать, добавить ковариаты и делать это очень осторожно.

Оставайся на цели

Забегая вперед, последний момент большой методологической сложности возникает при выборе целевой оценки максимального правдоподобия (TMLE) в качестве метода оценки параметров модели. Опять же, это не методологический успех - это коренится в реальной потребности, которая проистекает непосредственно из постановки проблемы.

В частности, чтобы избежать проблем, поднятых выше с параметрическими или полупараметрическими моделями для ковариат, обычной практикой является обращение к более гибким методам. Один из часто используемых методов - это сложенная регрессия, которая дает много преимуществ, но имеет серьезный недостаток. Опять же, я позволю газете предложить свой собственный комментарий:

Хотя гибкие методы регрессии ценны для точной корректировки ковариат, статистический вывод на основе полученной оценки теоретически затруднен.

(Примечание: научное письмо предлагает возможности для стиля юмора, который, на мой взгляд, сильно недооценивается. Действительно, «теоретически сложный».)

В некоторых случаях это может не иметь значения. Ваша цель - это в первую очередь прогнозирование с учетом структуры конкурирующих рисков? Сложная регрессия вполне может стать для вас хорошим выбором.

Это не тот сценарий, в котором «теоретические проблемы» статистического вывода не имеют значения. Вся суть испытания вакцины состоит в том, чтобы сделать вывод о лечебном эффекте для эффективности вакцины, а вся цель ситового анализа состоит в том, чтобы получить более точную картину того, как этот лечебный эффект распространяется на популяцию, принимая во внимание генетические последовательности патогенов, участвующих в ней. учетная запись. Статистический вывод является ключевым для миссии этой проблемы.

Иди и делай то же самое

Я не собираюсь углубляться в математику этой статьи в этой статье. Я не буду пытаться объяснять, что такое TMLE или как он работает, и не буду пытаться разбирать сложности конкурирующей структуры рисков. Если эта тема вам интересна, я настоятельно рекомендую вам попробовать сделать именно это - это сложный документ, но он полезен именно по этой причине.

Тем не менее, я думаю, что любой, кто занимается наукой о данных, может извлечь ценный урок из этой статьи: прислушайтесь к своей проблеме. Иногда, чтобы ответить на ваш вопрос - чтобы по-настоящему решить проблему, которую вам нужно решить - вам нужно копнуть глубже и заняться чем-то более сложным. Выявление ситуаций, когда сложные методы нужны или не нужны, - это навык, над которым должен работать любой специалист по данным.