Конференция XLDB 2018 (1/2)

Стэнфордский университет провел 11-ю конференцию по чрезвычайно большим базам данных, которую начали Яцек Бекла и другие, когда Яцек был в SLAC. В этом году упор был сделан на здравоохранение. В мероприятии, которое продолжалось два с половиной дня, приняли участие аналитические центры университетов и промышленности. Teradata, Google, Netflix, Microsoft, Verily, NSF, Databricks, Национальная лаборатория Лоуренса Беркли / ЦЕРН - лишь некоторые из них. Академия включала Стэнфорд, UCSF, UCSD, CalPoly, UCSC, UC Berkeley, MIT, Purdue и другие. У меня была возможность увидеть несколько молниеносных выступлений от Национальной энергетической технологической лаборатории (DoE), UCSC, Couchbase, MapR, TigerGraph и Intel.

Благодаря рекомендациям Сомали Датта, я теперь понимаю проблемы, с которыми сталкиваются при безопасной обработке данных в большом масштабе, и то, как научные круги / промышленность собираются их решать.

Яцек Бекла, вице-президент по технологиям и инновациям, с энтузиазмом приветствовал зал, полный постоянных гостей и новичков.

Я поделюсь своими заметками в этой серии из двух частей. Наслаждаться!

Пересечение здравоохранения / машинного обучения / больших данных: Сомали Датта {Slides}

Сомали представил взаимосвязанную концепцию здравоохранения, машинного обучения и больших данных, чтобы оказать влияние на масштабы планеты. Она обрисовала факторы, делающие это возможным: повсеместное распространение электронных электронных карт здоровья, сокращение затрат на секвенирование генов в миллионы раз, IoMT, собирающий миллиарды измерений, демократизированный доступ к вычислениям в пета-масштабе и да, наука о данных - это крутая карьера. Например, как офтальмологи Google, работающие с искусственным интеллектом, готовы поехать на работу в Индию, где проживает примерно 18% диабетиков в мире. Обеспечение улучшенного ухода за пациентами с помощью Genomics Medicine - это видение обмена данными и сотрудничества между пациентами, клиницистами, лабораториями и исследователями в рамках ClinGen / ClinVar. В качестве председателя следующей сессии доктор Датта подготовил почву для представления возможностей инноваций на этом пересечении.

Использование машинного обучения в здравоохранении - Нигам Шоу {Slides}

Я с нетерпением ждал его выступления, так как услышал о нововведениях через его Зеленую кнопку и Паллиативную помощь. Конечно, я подбадривал его, учитывая, что мы разделяем дело Альма, Пенсильвании. Мы всегда сталкиваемся с такими вопросами, как «что случилось с другими пациентами, такими как я?» Консультации по клинической информатике, предлагаемые Стэнфордом в рамках программы «Зеленая кнопка», представляют собой слияние различных источников данных.

Следующей была концепция паллиативной помощи на основе данных. В ходе этого обсуждения мы узнали, как механизм DL резко сократил количество кандидатов, рассматриваемых для получения паллиативной помощи в Стэнфордской больнице, в 10 раз. В заключение он призвал к совместным действиям по созданию практического руководства по внедрению технологий искусственного интеллекта в клиническую практику безопасным и этичным путем в течение трех-пяти лет. Это неизбежно, ребята!

Масштабный вывод по популяционным биобанкам: Мануэль Ривас {Slides}

Ривас представил набор методов, разработанных для изучения генетики болезней в контексте популяционных биобанков с целью оценки генетических параметров. Некоторые из параметров включают генетические корреляции, модельный риск заболевания и определение возможных вариантов и генов, связанных с заболеванием. Он описывает эти новаторские подходы и их применение к данным из британского биобанка, а также то, как системы управления сверхбольшими базами данных, такие как SciDB, сыграли важную роль в успехе RivasLab.

Обсуждение данных: Джессилин Данн, Прия Десаи, Кристин Киркпатрик; модерирует Сомали Датта

Эта панель данных объединила группу технологов и ученых, чтобы обсудить проблемы, с которыми они сталкиваются при переходе от идеи к продукту. Обсуждение было сфокусировано на СПРАВЕДЛИВЫХ данных (находящиеся, доступные, совместимые и повторно используемые), воспроизводимой аналитике и на том, как нормативные требования помогают или мешают. Данн поделилась своим опытом работы с потоками данных потребительских носимых устройств, а Десаи воспользовалась своим опытом астрономии на предыдущей работе, а Киркпатрик рассказала о своем опыте руководства Национальной службой данных в UCSD.

Инфраструктура данных для DAWN (Data Analytics for What’s Next) широко распространенного машинного обучения: Питер Баллис

Спикер был полон энергии, и страсть к теме была очевидна. Заданный ниже вопрос а что, если абсолютно бросает вызов статус-кво. Исследуемый вариант использования заключался в обнаружении автобуса на перекрестке в видеопотоке. Питер продемонстрировал, как использование Specialized NN может значительно повысить уверенность за небольшую часть стоимости YOLOv2. Ознакомьтесь с DAWN и ее целями по демократизации ИИ.

Project Jupyter: воспроизводимые, масштабируемые, совместные исследования данных - Брайан Грейнджер

Как соучредитель проекта Jupyter, Брайан красноречиво представил цели проекта и с гордостью продемонстрировал результаты проекта, блокнот Jupyter, веб-приложение, которое позволяет пользователям создавать документы в живом коде с повествовательными текстами, математическими уравнениями и визуализациями. . Ноутбук находит отличное распространение по всему миру и в различных сферах, в том числе в сфере здравоохранения.

Jupyter Notebook помогает предотвратить распространение одноразовых пользовательских интерфейсов для баз данных, библиотек машинного обучения и наборов данных. Во время перерыва я поблагодарил доктора Грейнджер и поделился своим незнанием способностей Джупитера. Я очень рад видеть, что команда Biarca Data Science запускает Jupyter Notebook в Google Cloud, чтобы продемонстрировать наши возможности обработки изображений, в частности, при работе с функциональной МРТ. Это гигантский скачок от незнания технологии.

Анализ и проверка данных для производственных конвейеров машинного обучения: Неоклис Полизотис {Слайды}

Выступление Алкиса проиллюстрировало, насколько заманчиво сказать: «У меня есть данные, у меня есть вопрос, давай воспользуемся машинным обучением». В начале приведенной ниже биграммы Алкис привел доводы в пользу включения проверки данных, отслеживания перекоса обслуживания / обучения, предупреждения об ошибках и исправления данных. В соответствии с темой конференции подчеркивается важность качества данных и соответствующей работы по уборке. Была представлена TFX (TensorFlow Extended), платформа машинного обучения, основанная на TensorFlow.

Проверьте 2/2 здесь