Как основанное на машинном обучении предсказание сильных или слабых значимых p-значений может помочь нам улучшить текущие показатели или определить подполя, для которых, возможно, потребуется разработать более высокие стандарты для публикации. Часть 2: Обучение модели машинного обучения и анализ объяснимости.

Данные и блокноты доступны по этой ссылке: https://github.com/danielcanueto/p_value_distributions/blob/master/notebooks/ablation_studies.ipynb

Статья, основанная на этом исследовании, скоро будет опубликована в biorxiv. Я буду очень признателен за любой вклад в улучшение исследования перед публикацией.

Введение

В первой части этого анализа я показал, как доля слабо значимых (слабых в дальнейшем) p-значений (т. е. 0,01–0,05) может зависеть от множества идентифицируемых факторов. В случае исследований -omics примерами релевантных факторов являются изучаемое подполе или вид/царство. Например, здесь мы можем наблюдать, что области, в которых фенотип оказывает большее влияние (протеомика, метаболомика), выдают более высокую долю слабых p-значений:

Слабые p-значения коррелируют с более низкой воспроизводимостью. Поэтому определение маркеров, связанных с более высоким процентом слабых p-значений, может помочь нам определить маркеры невоспроизводимости исследований. Эта идентификация маркеров поможет нам подготовить конкретные меры в зависимости от этих факторов, чтобы обеспечить оптимальную воспроизводимость результатов. Например, согласно приведенному выше рисунку, для метаболомики и протеомики могут потребоваться более низкие пороговые значения p для сообщения значимости из-за более высокой важности изменчивости данных.

Таким образом можно проанализировать несколько факторов, если соответствующие метаданные собираются для p-значения, из которого была получена статья. Например, для полей -omics мы можем проанализировать следующие переменные:

  • Количество цитирований статьи.
  • Принадлежность страны.
  • Год публикации статьи.
  • Подполе -omics.
  • Изучаемый вид/царство.

Однако сильное ограничение анализа доли слабых p-значений, проведенного с помощью приведенного выше рисунка, заключается в том, что существует несколько искажающих факторов, которые могут мешать результатам. Например, может случиться так, что статьи по метаболомике и протеомике являются более свежими, и доля слабых p-значений в последних статьях намного выше, чем в более старых статьях. Следовательно, необходимо максимально отделить влияние каждого фактора от взаимодействия с другими ковариатами.

Это распутывание может быть выполнено с использованием моделей классификации p-значений на основе ML как слабых (т. е. 0,01–0,05) или сильных (т. е. ‹0,01) с использованием переменных проанализировано. Позднее методы интерпретируемости машинного обучения позволят нам проанализировать, как каждая из переменных влияет на классификацию p-значения. Эти методы интерпретации, например, помогут нам обнаружить, что некоторые страны могут влиять на p-значение, чтобы классифицировать его как слабое.

Подготовка набора данных и обучение модели

Этот блокнот содержит всю подготовку данных, необходимую для выполнения классификации на основе ML. Подготовка состоит из процесса объединения нескольких наборов данных и удаления строк с недостаточным количеством информации. После этого был создан набор данных из более чем 100 000 p-значений (54 000 сильных и 49 166 слабых p-значений) с соответствующими метаданными (год публикации, источник набора данных p-значения, страна принадлежности, поле -omics, изучаемые виды/царство). , количество цитирований). Краткое изложение информации здесь:

Затем из этого набора данных модель обучается с использованием пакета «caret», с 10-кратным CV и с использованием алгоритма повышения градиента. Вот достигнутые показатели:

По метрике точности мы можем заметить, что можно правильно предсказать класс почти двух из каждых трех p-значений с предоставленной информацией (т. е. без какой-либо фактической необходимости читать статью, чтобы оценить его качество).

Напротив, при использовании только количества цитирований достигаются следующие показатели:

Метрики намного хуже, когда используется только количество цитирований. Это означает, что добавление нескольких переменных к анализируемому количеству цитирований помогает нам значительно улучшить идентификацию слабых p-значений. Таким образом, можно генерировать показатели качества протокола исследования, которые могут гораздо лучше выявлять потенциальные невоспроизводимые результаты, чем количество цитирований. Это понимание имеет смысл, если учесть, что на количество цитирований сильно влияют тенденции или количество практиков, заинтересованных в сфере охвата статьи.

Объяснимость модели машинного обучения

Чтобы определить ценную информацию в обученной модели, которая поможет нам предложить предписывающие меры для улучшения воспроизводимости, необходимо:

  • Чтобы оценить важность каждой переменной.
  • Чтобы оценить, как каждая переменная влияет на прогноз.

Эти потребности требуют современных методов объяснимости, которые могут предоставить эту информацию с как можно меньшим влиянием, например, взаимодействие между ковариатами. Объяснение этих методов объяснимости выходит за рамки этого поста. Настоятельно рекомендую прочитать эту открытую книгу о методах объяснимости от Кристофа Молнара. Например, в этой книге вы узнаете, почему я выбрал графики накопленных локальных эффектов вместо графиков частичной зависимости, чтобы избежать влияния ковариат.

Эти методы интерпретируемости были реализованы с помощью R-пакета DALEX.

Рейтинг наиболее важных переменных был следующим:

Кроме того, важность каждой переменной в прогнозе была подтверждена исследованиями абляции, доступными в этом блокноте. Все переменные продемонстрировали способность помочь в прогнозировании сильных/слабых p-значений во время этих исследований.

В следующих разделах оценивается влияние каждой переменной в прогнозе. Чтобы понять следующие цифры на основе DALEX, чем выше значение по оси Y, тем выше вероятность предсказать слабое значение p.

Количество цитирований

Согласно этому рисунку, как и ожидалось, существует связь между более высоким количеством цитирований (ось x) и более низкой вероятностью классификации p-значения как слабого (ось y). Однако этот эффект насыщается прибл. более 20 ссылок. При наличии большего количества цитирований, чем 20, количество цитирований больше не связано явно с более низкой долей слабых p-значений (и, возможно, с более высоким качеством в протоколе исследования).

Страна принадлежности

Статьи, в которых Китай является страной принадлежности, больше всего ассоциируются с более высоким уровнем слабых p-значений (более высокое значение по оси Y). Этот эффект согласуется с результатами, полученными в ходе исследовательского анализа (см. эту тетрадь).

Этот эффект, возможно, связан с текущим выпуском исследований с меньшим воздействием (вызванным недавним появлением научных исследований в этой стране). Меньшее влияние означает меньшие ресурсы и, следовательно, меньшие размеры выборки, что коррелирует с невоспроизводимыми результатами. Эта гипотеза согласуется с появлением западных стран с более старым научным расцветом и высокоэффективными исследованиями (например, Германия, Великобритания) как страны с наименьшей долей слабых p-значений в своих исследованиях. Тем не менее, не следует сбрасывать со счетов и потенциальные последствия для конкретной страны, связанные с законодательством, которое усиливает стимулы «опубликуй или умри».

-Поле Omics

Полученные здесь результаты согласуются с выводами, сделанными в ходе исследовательского анализа (см. часть 1). В областях, где фенотип оказывает большее влияние (протеомика, метаболомика), существует более высокая вероятность того, что p-значения будут классифицироваться как слабые. Эти результаты предполагают, что, возможно, необходимо улучшить минимальные стандарты для публикации исследования в этих областях, так как может быть чрезмерное создание слабых p-значений, связанных с невоспроизводимыми результатами.

Проанализированы виды/царства

Существует более высокая тенденция прогнозировать слабые значения p, когда они взяты из статей, в которых изучаются нечеловеческие модели. Полученные здесь результаты согласуются с выводами, сделанными в ходе исследовательского анализа (см. Часть 1 ). Эти результаты предполагают, что может быть необходимо улучшить минимальные стандарты для публикации исследования при изучении видов без обширной предварительной библиографии, поскольку текущий вывод слабых p-значений может быть чрезмерным.

Год публикации

Результаты показывают обратную зависимость между годом публикации статьи и вероятностью классифицировать p-значения как слабые.

Этот тип отношений кажется противоречащим предупреждениям о росте практики p-hacking, основанной на стимулах «опубликуй или погибни» (Monsarrat and Vergnes 2018). Однако большинство изучаемых областей -омики возникли относительно недавно. Области исследований, как правило, улучшают протоколы исследований и со временем увеличивают размер выборки. Эти улучшения должны коррелировать с меньшим количеством невоспроизводимых результатов. Этот эффект может объяснить снижение вероятности классификации p-значений как слабых.

Обсуждение и будущие направления

Эти результаты свидетельствуют о потенциальных преимуществах анализа доли слабых p-значений в литературе. Эта метрика поможет определить потенциальные маркеры, связанные с большим количеством слабых p-значений и, следовательно, с невоспроизводимыми результатами. В настоящее время существует множество «пряников» для улучшения воспроизводимости результатов исследований. Эта метрика могла бы стать ценным «кнутом», дополняющим существующий метод пряника.

Эффективность метрики для отслеживания частоты невоспроизводимых результатов должна быть проверена в дальнейших исследованиях. Однако эта эффективность согласуется с взаимосвязью между слабыми p-значениями и невоспроизводимыми результатами (см. часть 1).

Теоретически подобные пропорции слабых p-значений должны наблюдаться во всей научной литературе. В отличие от подсчета цитирований, этот подход не должен зависеть от влияния исследования или количества исследователей в научной литературе. поле. Таким образом, эта метрика обещает высокую обобщаемость в разных областях исследований и условиях. Итак, я предлагаю оценить этот подход в других областях, исследователи которых обеспокоены потенциальными проблемами воспроизводимости. Этот подход может помочь им получить представление о потенциальных маркерах недостаточной воспроизводимости. Эти идеи помогут сосредоточить усилия по улучшению научных исследований на наиболее тревожных тенденциях во всех областях.

Этот анализ носит скорее исследовательский, чем выводной характер. Таким образом, на данном этапе было бы слишком смело предлагать, исходя из результатов исследования, например. стратегии улучшения воспроизводимости только в конкретных подполях. Однако эти результаты оправдывают дальнейшую оценку значимости проанализированных переменных в воспроизводимости результатов. Если результаты подтвердятся, то внедрение более высоких стандартов компенсирует причины этой более низкой воспроизводимости (например, недостаточные оптимальные и стабильные протоколы исследования).

Примерами стратегий улучшения воспроизводимости для определенных факторов или подполей могут быть следующие:

  • Более низкие пороговые значения p и/или требование минимальной величины эффекта.
  • Репликация в разных наборах данных.
  • Стандартизация рабочих процессов исследования (Wilkinson et al. 2016; Sud et al. 2016) и обеспечение их выполнения. Если стандартизация еще невозможна из-за слишком маленькой библиографии, более жесткие требования к воспроизводимости протокола исследования.
  • Предварительная регистрация исследования до начала исследования с выгодным поощрением (https://cos.io/prereg/).
  • Автоматизация различных этапов, таких как предварительная обработка данных и количественная оценка. Эта автоматизация поможет свести к минимуму влияние человеческих предубеждений и ошибок.

Ограничения

Растет озабоченность по поводу практики взлома и невоспроизводимости результатов. Следовательно, необходимость решения этих проблем оправдывает представленный анализ даже при наличии определенных ограничений. Тем не менее, эти ограничения должны быть известны исследователям, которые пытаются применять аналогичные подходы в дальнейших исследованиях. Позднее рецензирование поможет выявить новые ограничения.

Этому подходу мешают такие факторы, как вариабельность размеров выборки, величины эффектов, виды статистических тестов, поправки на p-значение или округление p-значения. Вся эта изменчивость добавляет шум в набор данных. Но большие размеры выборки должны частично компенсировать этот шум. На данном этапе необходим очень осторожный подход, чтобы не игнорировать потенциальное влияние этого шума или любых других помех. Например, эти блокноты (exploratory_analysis и model_training) показывают, насколько влияние года публикации в исследовательском анализе не соответствует наблюдаемому в обученной модели. Это несоответствие, по-видимому, вызвано влиянием источника собранного p-значения.

Качество этого подхода было бы значительно улучшено требованием сообщать точные (т.е. без округления или коррекции) p-значения исследований. Кроме того, требование сообщать также доверительные интервалы для каждого p- значение может помочь оценить достоверность результата. Следовательно, влияние размера выборки или любых других факторов будет эффективно отслеживаться во время анализа. Потенциальные огромные преимущества, которые помогут улучшить исследования, оправдывают как принятие определенных ограничений в подходе, так и обеспечение соблюдения предлагаемой отчетности. Помимо этих преимуществ, дихотомизация p-значений для управления эффектами округления может не понадобиться. Следовательно, анализ p-значений будет более сложным, а выводы будут более глубокими и качественными.

Наконец, существовали ограничения в использовании научных поисковых систем для сбора информации об исследовательских статьях. Ограничения подразумевают потенциальное отсутствие нюансов при сборе информации. При более полном сборе информации размер выборки p-значения может быть выше, и может быть собрано больше представляющих интерес факторов.

Благодарности

Я хочу поблагодарить Резу М. Салека и Биваприю Мишру за их помощь в течение этих месяцев. Кроме того, я хочу поблагодарить таких людей, как Тим ван дер Зее или Ури Симонсон, за вклад в понимание ограничений предыдущих итераций исследования.

Ссылки

Монсаррат, Поль и Жан-Ноэль Вернь. 2018. «Интригующая эволюция размеров эффекта в биомедицинских исследованиях с течением времени: меньше, но чаще статистически значимо. GigaScience 7 (1): 1–10.»

Суд, Маниш, Эоин Фахи, Дон Коттер, Кенан Азам, Иланго Вадивелу, Чарльз Бурант, Артур Эдисон и др. 2016. «Metabolomics Workbench: международный репозиторий метаболомных данных и метаданных, стандартов метаболитов, протоколов, учебных пособий и тренингов, а также инструментов анализа. Исследование нуклеиновых кислот 44 (D1): D463–70.»

Уилкинсон, Марк Д., Мишель Дюмонтье, И. Джсбранд, Ян Ольберсберг, Габриэль Эпплтон, Майлс Экстон, Ари Баак, Никлас Бломберг и др. 2016. «Руководящие принципы FAIR по управлению и управлению научными данными. Научные данные 3 (март): 160018.»