Федеративное машинное обучение потрясет вас.

В этой статье мы проанализируем вариант использования федеративного машинного обучения. Мы имели честь и удовольствие получить разрешение от Dr. Мария Тереза Ферретти, CSO и соучредитель Женского мозгового проекта, чтобы иметь возможность процитировать ее в этой статье.

Работа доктора Ферретти говорит сама за себя, чтобы помочь в понимании. Я делюсь одним из ее недавних выступлений на TEDx в Турине, Италия:

Столп проекта «Женский мозг».

Проект «Женский мозг» (WBP) — это международная некоммерческая организация, базирующаяся в Швейцарии, которая использует возможности международной команды ученых. Они работают над внедрением секса и гендера в точную медицину, от фундаментальной науки до новых технологий. Столп прозрачен: «От различий пациентов к характеристикам пациентов, добиться точной медицины и сделать системы здравоохранения устойчивыми». Миссия:

Чтобы повысить точность медицинских исследований и обеспечить устойчивость в здравоохранении”.

Поскольку женщины и мужчины разные, деменция поражает женщин гораздо больше, чем мужчин. На TEDx (вы можете посмотреть и послушать его выше) доктор Ферретти говорит [также] о мозговом тумане. Я не знаю, страдали ли вы когда-нибудь от тумана в голове или были ли у вас близкие люди, которые страдали или страдали от него. Мой личный опыт — 15 лет назад, когда мать моего сына страдала от этого «мозгового тумана». Я гарантирую, что это так же разрушительно для больного, как и для его близких.

Что такое федеративное машинное обучение?

Федеративное машинное обучение — это метод машинного обучения, который использует сеть компьютеров для изучения данных. У него есть потенциальные приложения в здравоохранении, где данные часто разрознены в отдельных организациях, а также в ситуациях, когда данные не могут быть переданы из соображений конфиденциальности. Федеративное машинное обучение недавно привлекло внимание как многообещающий подход к обучению моделей на децентрализованных данных. При федеративном обучении сервер предоставляет обновления модели нескольким клиентам (устройствам), которые обучают модель локально на своем наборе данных. Затем клиент отправляет обратно свои обновления модели на сервер, объединяя их для создания обновления. Например, если есть дом престарелых A и дом престарелых B, каждый со своим набором данных о пациентах, федеративное машинное обучение может обучить модель, которая предсказывает риск деменции у женщин. Модель будет обучена на обоих наборах данных и развернута в каждом доме престарелых. Это позволит в режиме реального времени прогнозировать пациентов с риском развития деменции и потенциальных вмешательств, которые могут быть им оказаны.

Концепция FML до сих пор неясна большинству; посмотрите на распределение поисковых запросов Google:

Что такое прецизионная медицина?

Прецизионная медицина (ПМ) — это термин, используемый для описания применения конкретных медицинских методов лечения к отдельным пациентам в зависимости от их генетической структуры, окружающей среды и образа жизни. Есть надежда, что прецизионная медицина обеспечит более целенаправленную терапию, более эффективную и имеющую меньше побочных эффектов.

Одной из проблем, стоящих перед точной медициной, является огромное количество данных, необходимых для принятия обоснованных решений о лечении. Эти данные могут поступать из многих источников, включая электронные медицинские карты, медицинские изображения, данные геномики и данные, собранные с мобильных устройств и датчиков. К счастью, достижения в области федеративного машинного обучения позволяют безопасно и с сохранением конфиденциальности объединять данные из нескольких источников.

Что касается PM, с другой стороны, поскольку это уже широко используемая концепция, поиск Google также демонстрирует большую распространенность:

Что такое деменция?

Деменция — это потеря когнитивной функции, которая может мешать повседневной деятельности. Это распространенное заболевание, особенно среди пожилых людей. Наиболее распространенной формой деменции является болезнь Альцгеймера, но есть и другие типы. Женщины также более склонны к развитию деменции, чем мужчины.

Термин «деменция» описывает различные симптомы, в том числе потерю памяти, проблемы с общением и проблемы с моторикой. Раннее начало и тяжелые случаи являются наиболее изнурительными, но все уровни деменции могут проходить по месту жительства, с поддержкой и управлением посредством удаленной оценки состояния здоровья и телемедицины. В целом данные федеративных исследований использовались для обоснования принятия клинических решений об использовании статинов для первичной профилактики сердечно-сосудистых заболеваний (ССЗ).

Деменция, конфиденциальность и модели искусственного интеллекта.

Пожилые люди иногда теряются, возвращаясь домой. Со всеми нами случается забыть что-то вроде ключей от дома, но для тех, у кого деменция, узнавание собственного дома часто является сложной задачей.

Когнитивный упадок может принимать разные формы: это может быть «туман в голове», неспособность принять четкое, аргументированное решение, водить машину или правильно запомнить историю. На поздних стадиях может произойти несколько уровней инвалидности. Среди них нарушение памяти довольно часто встречается у пациентов с деменцией и другими формами когнитивного распада (включая речь, движение и другие важные функции).

По данным ВОЗ, на болезнь Альцгеймера приходится 60/70% всех случаев деменции. Его диагностика непроста, особенно в первые моменты, когда снижение когнитивных функций незначительное или незначительное. Эксперты выделяют шкалу симптомов, которая проходит через 7 стадий: от отсутствия нарушений до серьезного снижения когнитивных функций.

На поздних стадиях, при использовании медицинской визуализации, части мозга пациентов с болезнью Альцгеймера демонстрируют резкие изменения (атрофию), особенно гиппокамп, височные и теменные доли. К сожалению, эти макроскопические изменения проявляются на поздних стадиях, когда заболевание уже ухудшило качество жизни многих больных. Другие тесты биомаркеров пытаются связать AD с уровнями определенных белков или их фрагментов, таких как бета-амилоидный белок, который образует бляшки в тканях головного мозга. Хотя измерение уровня этого белка может быть индикатором заболевания, этого биомаркера недостаточно для ранней диагностики.

Интересно, что деменция непропорционально влияет на женщин, поскольку на них приходится 65% (источник ВОЗ) от общего числа смертей от деменции (также с поправкой на большую продолжительность жизни женского населения). Причины такой крайней разницы не ясны и находятся под пристальным вниманием. Болезнь Альцгеймера демонстрирует, среди прочего, генетические и экологические корреляции с семейным анамнезом и образом жизни (люди, ведущие малоподвижный образ жизни, больше страдают от болезни), но никакой конкретный набор причин не отвечает за состояние в каждой ситуации.

Такие группы, как Ассоциация больных болезнью Альцгеймера или WomensBrainProject, пытаются повысить осведомленность о ранней диагностике деменции и различиях между женщинами и мужчинами в бремени болезни. Их действия включают исследования, кампании в СМИ и сбор средств для продвижения знаний и исследований.

Дефицит данных.

Одной из проблем, которую приходится решать подобным ассоциациям, является доступность данных. Данные о когнитивных способностях пожилых людей обычно не собираются для больших выборок населения, особенно в бедных или развивающихся странах. Данные о деменции и когнитивных навыках существуют на национальном уровне, но они сильно смещены в сторону определенной демографической группы (т. е. белых, состоятельных людей, имеющих доступ к качественному медицинскому обслуживанию). Другие этнические группы могут не иметь последовательных данных, поскольку исследования не выявляют все генетические факторы, которые могут быть важны для ранней диагностики.

Но что мешает улучшить сбор данных, сделать опросы и процедуры сбора едиными на международном уровне?

Законы о конфиденциальности защищают хрупких людей от злоупотребления их данными в коммерческих и гнусных целях. Маловероятно, что одно учреждение, ответственное за сбор данных, предоставит свои данные, не удаляя слишком много личных данных, которые могут потребоваться для проведения качественного анализа. Мы должны удалить личную информацию из данных, чтобы гарантировать невозможность повторной идентификации дополнительных данных. Предположим, мы удаляем личную информацию и местонахождение людей (минимум, необходимый для того, чтобы никто не мог быть повторно идентифицирован по дополнительным данным). В этом случае аналитикам не хватает всей географической информации, касающейся заболевания: маскирование данных о местоположении делает анализ базы данных менее эффективным, поскольку ограничивает исследования факторов окружающей среды.

Имея это в виду, теперь понятно, почему структуры здравоохранения (больницы, исследовательские центры), даже если они не занимаются активным сбором данных, обеспокоены и противятся обмену картами пациентов. Нет безопасных способов предотвратить потерю или публикацию данных в течение всего процесса; утечка данных может стать катастрофой с непредвиденными последствиями для уязвимых людей.

Недавно было предложено аналитическое решение для выполнения вычислений и моделирования, позволяющее избежать всех проблем с обменом данными. Перенос вычислений в данные — это ключ к созданию мощных моделей без обеспечения безопасности и защиты всей процедуры обмена данными. Эта парадигма недавно представила федеративное машинное обучение (FML), многообещающую методологию для локальных вычислений и глобального моделирования.

Федеративное машинное обучение для моделирования слабоумия.

Когнитивные тесты предлагаются пациентам и используются для сбора данных об их навыках, таких как чтение, письмо, выполнение задач на память и другие. Личные данные об их образе жизни, весе, серьезных заболеваниях, семейном положении, детстве и т. д. сохраняются и передаются в локальную безопасную и хорошо охраняемую базу данных. Шифрование личной информации может помочь предотвратить случайное или преднамеренное распространение данных неуполномоченными лицами.

В FML схема базы данных публикуется в локальной сети медицинских работников и ассоциаций. Таким образом, каждая больница имеет свою копию схемы базы данных и может предоставить, если возможно, одну и ту же структуру данных (или ее часть).

Отдельные наборы данных могут содержать сотни или тысячи признаков, но лишь ограниченное количество записей, по одной для каждого пациента. Демографические данные каждой больницы разные и зависят от местного состава людей, находящихся поблизости, поэтому каждая база данных, вероятно, имеет смещение по одной или нескольким характеристикам. В машинном обучении модели несбалансированных данных будут иметь тенденцию воспроизводить предубеждения. База данных, созданная для белых мужчин, в конечном итоге может не работать для черных женщин. Решение заключается в создании крупномасштабной модели, охватывающей все базы данных без перемещения данных: цель федеративного машинного обучения.

Преимущества FML очевидны:

Модели будут работать локально рядом с данными (вычислять данные), снижая риски совместного использования данных.
В форме глобальной модели, которая получает информацию со всех узлов, сетевые вычисления создадут супермодель, которая уменьшит смещения, повысит точность и даст больше информации, чем отдельные модели.
Один или несколько узлов могут выступать в качестве мастеров, собирая и координируя глобальные вычисления. Нет необходимости в мощных центральных узлах, поскольку узлы-контроллеры в основном используются для распределения вычислений, а не для их выполнения.

У модели есть несколько недостатков, которые Hupry пытается устранить. Существует сложность платформы, которую необходимо решить:

Узлы должны принадлежать заранее настроенной частной сети.
Узлы должны подключать данные в различных форматах, от файлов до баз данных или частных облачных пространств.
Узлы должны быть безопасными и относительно изолированными от внутренней бизнес-инфраструктуры.
Во-первых, узлы должны выбрать стандартный формат данных и адаптировать каждую копию своих баз данных к выбранной схеме.

Эти операции — хлеб с маслом для экспертных систем и сетевых администраторов, которым приходится настраивать машины, надежную VPN и некоторые решения для обмена файлами. В то время как эти задачи относительно просты для крупных организаций, небольшие больницы будут бороться с бюджетными ограничениями или административными проблемами.

FML все еще находится на начальном этапе, но он обещает создавать лучшие модели, уменьшая или устраняя предвзятость многих моделей ML. Мы не уверены, что этого достаточно для того, чтобы деменцию наконец можно было диагностировать в первые дни; необходимо провести дополнительные исследования, чтобы найти лучшие биомаркеры для этой задачи. Тем не менее, более совершенные модели машинного обучения, несомненно, могут исключить несоответствия в отдельных гипотезах и помочь создать надежную модель, которая ограничит предубеждения и ограничения — все это перенос вычислений в данные — простой прием, повышающий конфиденциальность и позволяющий проводить аналитику.