Национальные институты здравоохранения (NIH) прилагают амбициозные усилия по использованию достижений в области науки о данных, машинного обучения и искусственного интеллекта (ИИ) для поддержки таких программ, как Precision Medicine, Cancer Moonshot и Brain. Инициативы ». Чтобы ускорить прогресс, NIH обратился к общественности с призывом Запросить информацию (RFI) по предлагаемому Стратегическому плану в области науки о данных. Я отправил свое письмо, и несколько человек попросили меня опубликовать его. Поскольку, как только оно отправлено, оно становится частью общедоступных записей, а отправка закрыта, я помещаю полный текст ниже.

Хотя это письмо предназначено специально для NIH, есть много частей, которые относятся к более широким вопросам этики, безопасности и того, как нам следует думать о данных в будущем. Вы заметите много похожих аспектов в том, что специалисты по обработке данных должны брать на себя повышенную ответственность и возможность использовать« данные во благо ».

Больше всего я хочу получить известие от вас. Как вы думаете?

26 марта 2018 г.

Уважаемые Национальные институты здоровья!

После запроса информации о стратегическом плане Национального института здравоохранения (NIH) по науке о данных, я хотел бы предложить свои рекомендации по проекту плана. Этот совет проистекает из карьеры математика в академических кругах; в отрасли - ведущие усилия по работе с данными в таких компаниях, как LinkedIn, где нам приписывают соавторство в создании современного термина «специалист по данным»; в правительстве в качестве главного специалиста по обработке данных США, ответственного за Инициативу точной медицины (PMI) и части программы Cancer Moonshot; и как бывший советник NIH по инициативам в области науки о данных.

Позвольте мне начать с того, что поблагодарите команду за выдающийся проект концепции. Впечатляет, насколько далеко NIH продвинулся с момента первоначального обсуждения науки о данных в деятельности NIH более трех лет назад. В частности, позвольте мне приветствовать усилия сотрудников NIH, которые продолжают отстаивать возможность улучшить жизнь американцев с помощью науки. Престижность всем вам.

Как и во всех черновиках, есть возможности для повторения. Имея это в виду, позвольте мне высказать следующие мысли:

1. Этика и безопасность. Как отмечалось в отчете Белого дома об искусственном интеллекте и автоматизации, каждая учебная программа по данным должна включать этику и безопасность в учебный план. В настоящее время студенты, изучающие проектирование баз данных, не узнают об основных атаках, которые могут скомпрометировать пользовательские данные. Кроме того, мало обсуждается, как проектировать и создавать технические решения, ограничивающие доступ, когда системы скомпрометированы или взломаны.

Сегодняшним студентам редко рассказывают об этических последствиях сбора, анализа данных и т. Д. С данными, как и во многих других вещах, то, что мы можем, не означает, что мы должны. Сегодняшние события демонстрируют, что усиление регулирования вполне вероятно, и NIH может и должен быть лидером на этом фронте. NIH имеет богатую историю лидерства в этой области, подобно тому, как биомедицина привела к биоэтике.

Поскольку мы продолжаем использовать данные и другие методы обработки данных, такие как машинное обучение и искусственный интеллект, критически важно изучить, как можно эффективно реализовать снижение предвзятости (для данных и модели) и прозрачность модели. Это открытые вопросы в исследованиях искусственного интеллекта и машинного обучения, но мы видим влияние предвзятости в алгоритмах и данных в других областях (например, в технологиях оценки риска освобождения под залог в уголовном правосудии).

NIH следует рассмотреть вопрос о том, чтобы все гранты на обучение требовали, чтобы этика и безопасность преподавались в рамках интегрированной учебной программы (а не только в качестве факультативов). И убедитесь, что эти курсы хорошо интегрированы не только в сообщество специалистов по науке о данных, но и в традиционные биомедицинские компоненты академического сообщества. Это связано с тем, что большинству будущих экспертов в стране потребуется некоторое обучение в области науки о данных.

NIH должен настаивать на инвестировании в новые модели безопасности, такие как программы bug bounty, которые оказались невероятно успешными для федерального правительства (например, Hack the Pentagon, который позволил обнаруживать критические уязвимости в течение 13 минут). Учитывая характер использования ИИ для создания новых атак, важно, чтобы NIH нашел новые способы информирования исследователей о новых угрозах. Это должно включать более тесное сотрудничество с министерствами юстиции, Национальным институтом стандартов и технологий и Министерством внутренней безопасности (DHS) так же, как и промышленность.

Наконец, NIH необходимо инвестировать в понимание того, как предвзятость модели и данных может повлиять на исследования и клиническую помощь. Это также должно решить вопросы воспроизводимости и природы «черного ящика» этих методов.

2. Правоприменение и доступ к данным. Национальному институту здравоохранения следует предпринять последовательные действия, чтобы гарантировать, что данные, предоставленные волонтерами, не будут доступны для правоохранительных органов. Доверие - это постоянство во времени, и NIH упорно трудился над исправлением ошибок прошлого (например, семьи Лакс). Если правоохранительные органы получат любую конфиденциальную информацию из наборов медицинских данных, это подорвет такие усилия, как кампания All of Us. Хотя это может показаться невероятным, данные переписи использовались во время Второй мировой войны для выявления американцев японского происхождения для интернирования. Кроме того, ведутся дискуссии о том, что DHS использует базу данных информации о местонахождении, предоставленную получателями DACA, для их отслеживания и депортации. И теперь в ходе переписи населения 2020 года планируется задать вопрос о гражданстве. Эти тенденции рискуют подорвать доверие общественности к данным NIH и исследовательским усилиям, особенно с включением более конфиденциальных данных, таких как генетические и геномные данные.

3. Общее правило. Хотя в реформировании Общего правила был достигнут большой прогресс, это только начало. Обновления Общего правила уже сейчас отстают от технологий и общественного мнения о согласии. Кроме того, обновления задерживаются Управлением по защите исследований человека.

К сожалению, нынешняя модель институциональных наблюдательных советов (IRB) недостаточна для управления с учетом темпов изменения технологий. Например, отчасти причиной задержки запуска программы All of Us был конфликт между быстрым, гибким, повторением технологии и громоздким процессом IRB, который должен был проверять каждое незначительное изменение языка, с которым сталкивались участники. В некоторых случаях рассмотрение IRB простого редактирования формулировки на веб-платформе может занять недели. Кроме того, исследовательское сообщество должно иметь возможность проводить специальную «добычу» больших объединенных наборов данных, чтобы находить корреляции, которые могут привести к пониманию и «традиционным» клиническим исследованиям. NIH должен обучать и поддерживать IRB, поскольку они рассматривают возможность применения новых технологий в исследованиях (как преимущества, так и риски).

Учитывая темп этих изменений, крайне важно, чтобы федеральное правительство более регулярно обновляло Общее правило для 18 задействованных агентств, в том числе с привлечением Управления управления и бюджета и проактивного достижения консенсуса во внешнем сообществе с более широким исследовательским сообществом. Агентства должны рассмотреть вопрос о введении обязательных обновлений в течение двух или трех лет, чтобы гарантировать, что мы не оставим экономически значимое правило и отрасль без важных указаний еще на 20+ лет.

4. Машинное обучение (ML) и AI изменят правила игры. Как говорится в проекте стратегического плана, машинное обучение и искусственный интеллект трансформируют каждую отрасль. Чтобы убедиться, что NIH извлекает выгоду из этих достижений, важно, чтобы NIH мыслил вне своих традиционных моделей финансирования и мышления. Наиболее агрессивные инвестиции в ML / AI происходят за пределами типичных получателей грантов NIH. Сюда входят отделы информатики и обработки данных, а также промышленность (Google, Facebook, Microsoft и Amazon). NIH следует рассмотреть новые модели партнерства с этими группами, поскольку у них есть ограниченный стимул к сотрудничеству с NIH из-за объема собираемых данных и отсутствия потребности в финансировании.

NIH должен признать уроки, извлеченные из DARPA Grand Challenge, который положил начало движению беспилотных автомобилей; и, в частности, урок о том, что обычный потребитель скорее всего получит выгоду раньше, чем Министерство обороны.

Именно промышленность (в первую очередь потребительский Интернет и электронная коммерция) является движущей силой технологических инноваций в науке о данных. Это связано с инвестициями в оборудование, поддерживающее движение за открытый исходный код (Kafka [который был создан в LinkedIn], Hadoop, Spark и т. Д.). Таким образом, эти технологии оптимизированы для решения промышленных задач, а не для решения задач, стоящих перед миссией NIH.

Национальная метеорологическая служба (NWS) извлекла уроки из того, что инвестиции компаний, производящих оборудование, все чаще нацелены на поддержку Интернета, а не на другие области, такие как прогнозирование погоды. США отстают по нашим инвестициям в суперкомпьютеры по сравнению с европейцами и японцами в том, что касается приложений, необходимых для улучшения прогнозов погоды. Потенциально это можно было бы исправить, расширив сотрудничество с промышленностью.

Наконец, необходимо больше инвестировать в «очистку» и извлечение, преобразование и загрузку (ETL) данных. Как я неоднократно указывал и подтверждено Crowdflower, и как уже известно многим исследователям NIH, очистка данных составляет 80% работы. Современные инструменты все еще не на высоте и ограничивают возможность своевременного и экономичного объединения больших наборов данных. Инвестиции в эту технологию осуществляются в промышленности через стартапы и более крупные корпорации, а также федеральные агентства, такие как Министерство обороны и Национальный научный фонд. Чтобы гарантировать, что эти технологии также приносят пользу более широким потребностям NIH, NIH должен активно участвовать в совместных партнерствах в области исследований и разработок.

5. Расширение федерального сотрудничества. Когда я был главным специалистом по обработке данных в США, меня больше всего беспокоило отсутствие сотрудничества между федеральными агентствами. Вот почему Кабинет данных был создан с целью улучшения совместной работы с федеральными данными и включает в себя более 40 федеральных директоров по данным / ученых.

NIH должен обязательно участвовать в этих встречах, чтобы изучать передовой опыт и делиться им. Кроме того, основные усилия по финансированию в области науки о данных, машинного обучения и искусственного интеллекта осуществляются Национальным научным фондом (NSF), министерствами обороны, энергетики и торговли (NOAA и Census). NIH следует продолжать поиск новых моделей партнерства с Управлением по контролю за продуктами и лекарствами (FDA), Центрами по контролю за заболеваниями (CDC) и Департаментом по делам ветеранов. У каждой из этих организаций есть ключевые данные, которые в сочетании с данными о здоровье могут произвести революцию в медицине.

Следует отметить, что правительства других стран признали ценность этого подхода и активно инвестируют в мультидисциплинарный подход, чтобы использовать биологию данных для получения конкурентного преимущества (например, инвестиции Китая в точную медицину на сумму 9 миллиардов долларов, биобанк Великобритании и т. Д.).

6. Расширение доступа к данным. Не может быть универсального подхода к данным. В некоторых случаях необходимы большие наборы данных, а в других - API. Хорошим примером этого являются данные клинических испытаний и проекты по улучшению доступа к данным через API. NIH должен найти способы и дальше открывать доступ к данным для более широкого круга пользователей. И, как мы видели в промышленности, это будет стимулировать дальнейшие инновации, поскольку общественность учится создавать что-то новое с использованием данных.

Одним из мощных активов, которым обладает NIH, являются наборы данных. Примеры включают dbGaP, программу «Все для США» и CinicalTrials.gov. Это национальное достояние, обеспечивающее уникальный уровень гражданской науки и способность ученых эффективно использовать NIH. Чтобы выполнить миссию по науке о данных, NIH должен продолжать поддерживать M13-13, а все данные по умолчанию должны быть открытыми и машиночитаемыми.

В заключение позвольте мне еще раз поблагодарить вас. Спасибо за то, что вы продолжаете осознавать возможность использования данных для улучшения жизни каждого американца.

DJ Патил - бывший главный научный сотрудник США

* Обратите внимание, что части письма были подчеркнуты, но Medium не поддерживает эту функцию. Полную подчеркнутую букву можно найти здесь