Глубокое обучение в науке

Обзор возможностей и тенденций

1 Коринфянам 10:23

Обзор

В этом посте я рассмотрю возможности применения глубокого обучения (DL) в научных и инженерных приложениях. Я начну с обзора появления эмпирических моделей, а затем кратко расскажу о некоторых основных характеристиках нейронных сетей. Основное внимание будет уделяться новым общим тенденциям и типам проблем, связанных с применением ДО в различных областях науки.

Расцвет эмпирических моделей

Люди всегда что-то строили. Но только недавно мы начали проектировать чрезвычайно сложные вещи: небоскребы, коммерческие самолеты и т. Д. Чтобы совершить этот прыжок от скал к стальным двутаврам, мы построили модели: упрощенные, сжатые, представления мира. Таким образом, мы могли создавать сложные вещи, будучи уверенными, что они будут работать так, как мы хотели, потому что мы уже смоделировали их заранее. Эти аналитические модели оказались чрезвычайно успешными: несколько уравнений могли представить большинство интересующих нас явлений и позволить нам манипулировать ими в наших интересах.

Однако эти аналитические уравнения, хотя и элегантны по своей компактности, также чрезвычайно трудны для решения. Во многих случаях для вывода этих уравнений требуются годы сосредоточенных человеческих усилий даже для простых явлений. Например, хотя приблизительные решения для маятникового движения и конструкции синглетных линз были известны на протяжении столетий, только в последнее десятилетие решения в замкнутой форме были получены для таких простых задач (1, 2). . Вместо этого мы часто используем итерационные численные модели, которые обычно основаны на уравнениях в частных производных, которые решаются итеративно и медленно сходятся к некоторому ответу (хотя обычно нет теоретической гарантии правильности ответа).

В последние несколько десятилетий стал набирать популярность другой тип моделей: эмпирические модели. Их рост, обусловленный исключительно данными, объясняется тремя основными факторами: неспособностью аналитических / численных моделей уловить явления в определенных областях, таких как биология, психология, экономика и медицина; быстрое распространение больших объемов данных; и достижения в области статистики и информатики, которые улучшили производительность таких моделей.

Эмпирические модели отличаются от своих аналитических / числовых аналогов, поскольку они явно ничего не предполагают о мире. Вместо этого они стремятся найти закономерности в данных, просто «подгоняя кривую» к представленным им данным. Эти различия создают небольшие опасности, поскольку недостаточные или необъективные наборы данных создают эмпирические модели, которые кажутся работоспособными, но не точно отражают реальность. Фактически, эмпирические модели никогда не могут претендовать на то, чтобы действительно представлять реальность, а только в приближении к единице. Мы оправдываем эмпирические модели их результатами, но никогда не можем доверять им просто потому, что они кажутся работоспособными. Для проверки модели и использования ее в надлежащем контексте требуется дополнительная экспертиза в предметной области.

Поэтому неудивительно, что развитие этих эмпирических моделей происходит благодаря компаниям, занимающимся разработкой программного обеспечения и онлайн-технологиям, поскольку вся отрасль строилась на сборе данных. По мере того, как эти компании росли в масштабах и размерах, они руководили растущей сферой искусственного интеллекта. сосредоточиться на важных для них проблемах: системы рекомендаций, классификация изображений, обработка текста. Однако в последнее время такие эмпирические модели, в частности модели глубокого обучения, стали очень популярны и стали использоваться в различных областях науки. В следующих разделах мы рассмотрим эпистемологические модели ДО в научных областях.

Почему именно глубокое обучение?

Глубокое обучение (термин, обозначающий нейронные сети, состоящие из многих слоев), очевидно, является разновидностью эмпирической модели. Но почему именно глубокое обучение? Почему не другое семейство эмпирических моделей, таких как машины опорных векторов, которые были тщательно изучены и охарактеризованы в 90-х годах? Существует несколько причин, по которым глубокое обучение из обширного семейства эмпирических моделей поднялось на вершину и доминировало в этой области.

Ранее я обсуждал, как одним из движущих факторов появления эмпирических моделей было быстрое распространение данных. Но неявно предполагалось, что больше данных означает лучшую производительность. Оказывается, это не всегда так.

Взаимосвязь между производительностью модели и данными зависит от емкости модели, которая представляет собой семейство функций, которые модель может аппроксимировать, и смещения модели, которое представляет собой априорные предположения, которые модель делает в отношении базовых данных. Например, линейная регрессия имеет очень высокую систематическую ошибку модели, поскольку предполагает, что базовые данные приблизительно линейны, что ограничивает возможности ее модели. И наоборот, нейронные сети могут аппроксимировать любую вещественную функцию (по теореме универсальной аппроксимации). И эмпирически мы обнаружили, что нейронные сети действительно хорошо масштабируются на больших наборах данных (хотя теоретическое обоснование того, почему нейронные сети все еще редки, см. Здесь и здесь). Важно отметить, что глубокое обучение преобладает только в очень больших наборах данных. В режиме малых данных неясно, какой тип модели лучше, и вам, скорее всего, придется использовать некоторую форму знаний в предметной области и проектирования функций, чтобы ваша модель работала хорошо.

Другой важной характеристикой нейронных сетей является их способность принимать в качестве входных данных необработанные неструктурированные данные. К таким типам данных относятся изображения, аудио, видео и т. Д. Легко представить, что большая часть данных в Интернете сегодня находится в этой неструктурированной форме, и только благодаря значительным человеческим усилиям эти данные преобразуются в машиночитаемую форму. В этих областях специалисты-люди определяют соответствующие характеристики, формируют данные в матрицу дизайна и вводят эмпирическую модель. Но нейронные сети могут принимать необработанные данные и изучать свои соответствующие функции самостоятельно, без какого-либо вмешательства человека! Позже мы увидим, что эта способность принимать неструктурированные данные также позволяет использовать широкий спектр нейронных архитектур, открывая тем самым широкий спектр потенциальных приложений.

Глубокое обучение в науке

3 столпа

Есть 3 основных столпа моделирования: данные, вычисления и алгоритмы. Вычисления обычно не являются ограничивающим фактором для научных приложений - действительно, глубокое обучение часто используется, потому что оно настолько вычислительно эффективно по сравнению с численными методами, которые требуют решения уравнений в частных производных. Распространение облачных вычислений по требованию (а также растущая тенденция к использованию специализированного оборудования) означает, что вычисления также чрезвычайно дешевы. Также помогает то, что наборы научных данных часто намного меньше (от сотен до тысяч примеров), чем массивные наборы, используемые онлайн-приложениями (от миллионов до миллиардов примеров), что означает, что требуется гораздо меньше вычислительных ресурсов. Наконец, улучшения в теории обучения и моделях вывода, таких как само глубокое обучение, привели к созданию стандартизированных архитектур, которые хорошо работают и могут быть развернуты прямо из коробки, например простой CNN в Керасе.

В этих столпах неявно находится центр тяжести: умение использовать все три столпа. К сожалению, DL заняло некоторое время, чтобы укорениться во многих исследовательских группах, не связанных с информатикой. Одним из сильных движущих факторов для этого является существующий серьезный рыночный дисбаланс: технологические корпорации (и почти все отрасли) отчаянно пытаются получить собственный внутренний опыт в области дистанционного обучения и могут платить намного больше, чем традиционные академические маршруты.

Тем не менее, это медленно меняется, поскольку многие профессиональные ученые начинают делать изменения в середине своей карьеры в фокусе, а растущий интерес к DL постепенно увеличивает количество студентов с пониманием DL, несмотря на интенсивную конкуренцию за переманивание профессоров, специализирующихся на AI. из университетов. Бурный рост фреймворков с открытым исходным кодом для глубокого обучения, таких как Tensorflow и Pytorch, рост онлайн-обучения с помощью массовых открытых онлайн-курсов (MOOC), таких как Coursera, EdX, и даже таких ресурсов, как Medium (таких как TDS Team ) помогли получить действительно открытое онлайн-образование в области ИИ. Осознание крупными технологическими компаниями необходимости помогать развитию талантов извне, например Также помогли ускоренный курс машинного обучения Google Developers и школа искусственного интеллекта Microsoft. Все эти факторы привели к медленному проникновению DL в научные приложения.

«Защищаемый барьер - это данные, а не алгоритмы», - Эндрю Нг.

Характеристика темпов принятия DL по различным областям

Ограничивающим фактором, особенно в научных приложениях, являются данные. Вот почему области, которые имеют наибольший опыт работы с эмпирическими моделями (например, биоинформатика, геномика, физика высоких энергий), также имеют самые большие крупномасштабные наборы данных с открытым исходным кодом. И наоборот, области, которые наиболее готовы к разрушению с помощью глубокого обучения, - это те области, в которых в настоящее время отсутствуют четкие стандартизированные наборы эталонных данных с открытым исходным кодом и где трудно получить большие объемы высококачественных данных (например, механические свойства промышленных образцов, наноразмерные свойства материалов, страхование и здравоохранение). Традиционные наборы данных тестов с открытым исходным кодом, такие как ImageNet, Cifar-10, Youtube 10M и т. Д., Помогли стимулировать базовые инновации в архитектуре глубокого обучения - аналогичные эффекты можно ожидать и для наборов данных для конкретной предметной области.

Структура данных также имеет значение. Например, классификация злокачественных и доброкачественных опухолей на маммограмме легко превращается в проблему классификации или сегментации изображений. И наоборот, как предсказать свойства химических молекул и видов сложнее - как представить эти молекулы таким образом, чтобы модель могла их понять? Достаточно ли стехиометрической формулы? Следует ли включать кристаллическую группу, условия синтеза, квантово-механическое описание и т. Д.? Определение того, как «отпечаток» молекулы передать в модель машинного обучения - гораздо более сложная задача, требующая значительно большего опыта в предметной области, чем простая передача матриц. Скорость внедрения глубокого обучения в каждой области будет зависеть от того, насколько легко данные могут быть представлены в виде традиционных структур данных, но, наоборот, это также дает возможность разрабатывать новые модели, которые изначально считывают сложные данные, относящиеся к предметной области. Другие факторы, влияющие на принятие, - это то, насколько сложно получить данные из числовых моделей и насколько они заслуживают доверия, насколько высок входной барьер для специалистов по машинному обучению с небольшим опытом в данной области и т. Д.

Еще одна отличительная черта областей, которые первыми начали применять глубокое обучение, заключается в том, что они отдают предпочтение выводам над объяснимостью, считают некоторую неопределенность приемлемой и не боятся иногда ошибаться. Если наша цель - оптимизировать материальный дизайн или ускорить физическое моделирование, нам может быть все равно, как мы к этому пришли, или даже если ответ будет немного неправильным, если он достаточно близок и лучше того, что у нас было раньше. Но если мы контролируем и проектируем национальные электросети или ставим медицинские диагнозы, мы могли бы быть более осторожными. Машинное обучение особенно подходит для ответа на одни виды вопросов и в меньшей степени на другие: понимание спецификации задачи и конструктивных ограничений в различных областях науки смягчит роль, которую играют эмпирические модели, и, возможно, откроет возможности для новых формулировок моделей.

Наконец, особой характеристикой полей поздно принявшихся является то, что они содержат разрозненные данные. Хорошие примеры - личные данные пациентов и данные электросетей. В этих областях первым шагом является поощрение разговоров о том, как разработать реалистичные, но публикуемые наборы эталонных данных, над которыми можно будет работать и отслеживать прогресс. Крупномасштабные эталонные наборы данных с открытым исходным кодом важны, потому что они подталкивают поле для разработки новых методологий открытым способом на основе общего набора данных, ускоряя инновации и обмен знаниями. Также важно установить соглашения об анонимизации данных, обмене данными и отчетности. Новые разработки в области федеративного обучения - важный первый шаг на пути к разработке алгоритмических гарантий для обеспечения безопасного обмена данными с приоритетом конфиденциальности. В полях с сильно разрозненными данными следует также ожидать, что группы с привилегированным доступом к данным будут иметь большое преимущество перед группами без них.

Как видите, одной из наиболее важных характеристик, которые следует учитывать при изучении степени внедрения DL в различных областях науки, являются данные. В частности, решающими факторами являются количество, разнообразие и то, что я называю адаптируемостью, т.е. насколько данные поддаются архитектуре DL. Многие отрасли в настоящее время переживают то, что можно было бы назвать моментом ImageNet, поскольку количество научных данных стремительно растет по различным дисциплинам.

Глубокое обучение и философия науки

Глубокое обучение предоставило потрясающие возможности для самостоятельного изучения функций и в некоторых случаях свело на нет десятилетия экспертной работы в некоторых областях. Это, естественно, может вызвать опасения, что глубокое обучение может автоматизировать работу ученых. Это маловероятно, по крайней мере, в ближайшем будущем, по нескольким причинам. Во-первых, глубокое обучение не объясняет, а наука (возможно) является механистической дисциплиной. Глубокое обучение может помочь в разработке теорий, но пока что само по себе не разрабатывает никаких идей. Во-вторых, многие достижения глубокого обучения заключались в расширении или улучшении способности собирать или визуализировать данные, но интерпретация, наиболее важная часть научного метода, по-прежнему остается прерогативой людей. Наконец, глубокое обучение до сих пор было прерогативой веб-технарей; Развитие DL было вызвано проблемами, с которыми столкнулись Google, Facebook и тому подобное. Научные проблемы имеют другие критерии успеха, типы данных и проблемы, чем те, с которыми сталкиваются технологические компании. Для удовлетворения этих потребностей потребуются новые архитектуры и подходы, и они должны быть созданы теми, кто действительно понимает основную проблему. Действительно, создание моделей нейронных сетей, которые учитывают физические ограничения, например настройка функции потерь - это растущая область исследований.

Пожалуй, наиболее широко применимый совет: следите за данными. Если у вас есть опыт применения глубокого обучения в конкретной области, ищите сотрудников, которые могут предоставить вам доступ к большим объемам данных. И наоборот, если вы сидите на вычислительных ресурсах или больших неиспользуемых наборах данных, ищите людей с проверенной репутацией в глубоком обучении или даже лучше, поощряйте внутреннее обучение в этих областях. Вы также можете создавать свои собственные данные! Сбор старых лабораторных тетрадей, исследовательских работ или даже несколько недель создания собственных данных - это уникальный способ использовать активы лаборатории. Наиболее хорошо подготовленные исследовательские группы будут накапливать собственный опыт как в глубоком обучении, так и в конкретной научной области, и будут иметь доступ к постоянному потоку новых данных.

Шаблон общих задач для DL in Science

Основываясь на моем опыте применения DL в различных научных приложениях, я заметил, что многие описания проблем подпадают под схожие шаблоны. Я выделил несколько общих шаблонов проблем, которые часто встречаются в этих тематических исследованиях. В каждый шаблон включены несколько опубликованных работ, которые следуют этому шаблону. Если у вас есть научная проблема, которая вписывается в один из этих шаблонов, то она не только, скорее всего, созрела для нарушения глубокого обучения, но и уже существует набор хорошо известных и понятных методов, которые можно применить.

Подгонка и оптимизация: нам предоставляется либо 1) существующая числовая модель, которая работает очень медленно, например метод конечных элементов, гидродинамика, симуляторы столкновений физики частиц и т. д. или 2) очень большой набор данных, который нельзя охарактеризовать традиционными методами, например геномика. Наша задача - последовательный, двухэтапный процесс. Во-первых, мы хотим иметь возможность создать модель, которая научилась хорошо представлять числовую модель или базовый набор данных. Это стандартная задача контролируемого обучения, в которой мы применяем глубокое обучение, чтобы либо ускорить существующие численные методы, либо понять чрезвычайно сложные данные и сделать выводы на основе данных. Часто естественным следующим шагом в нашей проблеме является оптимизация для некоторой функции стоимости, что может быть выполнено либо с помощью численных решателей, таких как градиентный спуск или эволюционные алгоритмы, либо с помощью генеративных моделей. Генеративные модели хороши тем, что нужно построить только одну модель, а не модель вывода и оптимизатор. Это также можно рассматривать как проблему обратного проектирования, когда желательно однократное обучение.

Это, безусловно, самый распространенный шаблон проблемы, который я наблюдал в своей работе. Этот шаблон подходит для любого случая, когда вы хотите найти оптимальный дизайн для некоторого набора желаемых свойств. Хотя конечной целью является однократное обратное проектирование, подбор и оптимизация в настоящее время является наиболее хорошо изученной парадигмой, поскольку суррогатные модели DL могут легко заменить вычислительно дорогостоящие численные модели. Команда Google DeepMind использовала комбинацию нейронных сетей для вывода и градиентного спуска для оптимизации, чтобы предсказать конфигурации сворачивания белков и поразить другие команды с помощью своей модели AlphaFold. Liu et. al. использовали нейронные сети для обратного проектирования нанофотоники , используя двухэтапную процедуру обучения для поиска наноструктур с заданным спектром пропускания. В этой работе обратное проектирование было выполнено без фреймворка подгонки и оптимизации, но с использованием умных архитектур нейронных сетей и процедур обучения, демонстрирующих, как опыт и ноу-хау DL могут улучшить идеи традиционных суррогатных моделей.

В качестве подмножества подгонки и оптимизации есть также ситуации, когда мы просто хотим ускорить численные модели, например Расчет функционала плотности, многомасштабные физические модели, хаотические системы и т. Д., Чтобы ускорить моделирование различных теорий или ускорить теоретические предсказания для проверки экспериментальных данных.

Снижение шума: нам дается система для измерения, но физические измерения состоят как из желаемого сигнала, так и из шума, и во многих случаях устранение шума из наших измерений является сложной задачей. Также возможно, что мы калибруем наше измерительное устройство или что понимание измерений слишком сложно для человека (например, гиперспектральные данные). В любом случае должен быть установленный, достоверный, золотой стандарт, с которым можно было бы сравнивать традиционные измерения. При решении этой проблемы необходимо учитывать три основных компонента: что такое данные с шумом, что данные с шумом и как получить данные с шумом в виде метки; как поставить проблему, то есть под наблюдением, без присмотра, под присмотром; и как измерить шумоподавление. Похожий сценарий - это когда нам предоставляются две разные числовые модели / симуляции, одна из которых быстрая и неточная, а другая медленная и точная, и мы хотели бы иметь точность последней и скорость первой.

Например, Schawinski et. al. в ETH Zurich использовали GAN для шумоподавления изображений галактик. Для обучения GAN они использовали искусственно ухудшенные изображения и показали, что GAN могут восстанавливать исходные изображения лучше, чем традиционные методы. Они использовали несколько сочетаний традиционных и новых методов для измерения характеристик шумоподавления. На противоположной шкале длин Rivenson et. al. использовали архитектуру типа автоэнкодера с полностью сверточной нейронной сетью (CNN) для восстановления фазы измерений ячеек только по интенсивности . Чтобы получить метку истинности золотого стандарта, они использовали 8 измерений с разной высотой от образца до датчика, чтобы восстановить фазу и использовать ее в качестве метки для CNN. В более общем смысле, CNN использовалась для восстановления части сигнала, для получения которой ранее требовалось несколько измерений.

Модели-участники: у нас есть агент, который взаимодействует со своей средой, и мы хотели бы, чтобы этот агент изучил некоторую политику для максимизации некоторой функции затрат, например управление коммерческой системой отопления, вентиляции и кондиционирования воздуха, регулирование энергоснабжения электросети, отслеживание движущихся биологических образцов с помощью микроскопа и т. д. Во многих случаях такие проблемы могут быть фактически переведены в один из предыдущих шаблонов проблем, например прогнозирование ценностей ближайшего будущего и применение известных аналитических политик на основе опыта предметной области, шумоподавление образцов вместо изучения более эффективных политик и т. д. Поскольку такие проблемы типа обучения с подкреплением (RL) намного сложнее, чем контролируемое обучение, часто имеет смысл использовать вывод Модель в сочетании с простой эвристической политикой, разработанной на основе нашего понимания системы, поскольку в таких системах меньше неопределенности. Построение проблемы сильно влияет на сложность проблемы, а также на тип используемых моделей - для таких проблем типа актор-модель часто проще перевести эти проблемы в более простой шаблон проблемы, например регрессия / классификация.

В качестве примера преобразования политических проблем в проблемы регрессии Wei et. al. использовал Deep Learning для автоматической фокусировки микроскопа во время микроскопии живых клеток . Однако вместо использования очень сложного подхода RL они просто использовали CNN для прогнозирования правильных параметров микроскопа с учетом входного изображения. Такая CNN может использоваться для обновления фокуса микроскопа каждые несколько секунд без необходимости RL. Впечатляет то, что такая модель показала меньшую вариативность, чем группа экспериментаторов-людей.

RL также был применен к системам HVAC Wei et. al. Минимизировать затраты на электроэнергию для зданий. Система HVAC в здании была смоделирована как Марковский процесс принятия решений (MDP) и нейронная сеть, используемая для оценки Q-значения. Алгоритм RL продемонстрировал значительную экономию затрат по сравнению с моделями, основанными на правилах. Действительно, RL в настоящее время является быстрорастущим методом моделирования электросетей, который часто использует комбинацию MDP, Q-обучения и традиционных экономических / физических моделей энергосистем для минимизации энергопотребления и экономических затрат.

Важные различия между «традиционными задачами ДО» и научными проблемами

Вышеупомянутые шаблоны предоставляют полезные сопоставления между научными проблемами и традиционными типами проблем глубокого обучения и помогают выявить текущие тенденции в литературе о том, какие проблемы можно легко преобразовать в подходы к эмпирическому моделированию. Однако также важно подчеркнуть различия между традиционной разработкой проблем глубокого обучения, часто мотивируемой интернет-компаниями, и разработкой в научных областях.

Возможно, наиболее очевидное различие заключается в том, что научные области имеют дело с гораздо меньшими наборами данных. Получение данных обычно ограничивается либо вычислениями, либо возможностью проводить эксперименты с высокой пропускной способностью. Данные обычно не просто плавают в эфирном Интернете, готовые к очистке; он должен быть дорогостоящим с использованием вычислений или записан с использованием повторяемых экспериментов. В то время как современные исследования DL часто фокусируются на том, как помочь чрезвычайно большим моделям учиться на еще больших наборах данных, например RoBERTa, нам нужно больше исследований на выборочных эффективных моделях.

К счастью, мы также знаем гораздо больше о взаимосвязи между нашими входами и нашими целями. Века предшествующих человеческих знаний не были напрасными! Во многих случаях мы знаем конкретные ограничения на отношения между вводом и выводом или конкретную форму вывода, например. сохранение энергии, обеспечивающее соблюдение известных отношений между элементами в модели с несколькими выходами. Основная трудность, которая сама по себе является существенной и активной областью исследований, заключается в том, как эффективно передать или закодировать наши предыдущие знания в самой модели.

Многие ученые и инженеры, которые работают над «традиционными» проблемами глубокого обучения в промышленности или в академических кругах, часто жалуются на длительное время обучения и логического вывода нейронных сетей. Но для научного сообщества Deep Learning как стохастическая обучающая модель на много порядков быстрее традиционных итеративных численных моделей, например. конечный элемент, теория функционала плотности и т. д. Также важно отметить, что время вывода и обучения для нейронных сетей в будущем будет только сокращаться, поскольку такие компании, как NVIDIA и Intel, вкладывают значительные усилия в создание специализированного оборудования для ускорения работы нейронных сетей. операции, например матрица-накапливается. То же самое, конечно, не относится к традиционным численным методам, которые в большинстве случаев довели оптимизацию времени выполнения до максимально возможного за десятилетия человеческих усилий, вложенных в поиск более эффективных, научно обоснованных алгоритмов.

Я планирую и дальше обновлять этот список различий между традиционными задачами ДО и научными проблемами. Будем надеяться, что это послужит ориентиром для областей, в которых достижения в области дистанционного обучения несовместимы с научными потребностями, и поможет мотивировать дальнейшие исследования в области дистанционного обучения, специфичные для научных нужд.

Новый путь вперед

В области глубокого обучения в настоящее время преобладают проблемы, вызывающие озабоченность технологической индустрии: их способность вкладывать значительные средства в вычислительную инфраструктуру, владение большими собственными наборами данных и, что наиболее важно, значительным финансированием для привлечения талантов, снизили озабоченность научного сообщества. Поразительно, что G oogle опубликовал больше всего статей на NeurIPS 2018 и что из 10 ведущих организаций по количеству статей 3 были коммерческими компаниями. Кроме того, использование очень успешных моделей, обученных на массивных наборах данных о взаимодействиях в социальных сетях, привело к росту озабоченности по поводу конфиденциальности, предвзятости, этики и влияния таких технологий на нашу демократию.

Но вопреки тому, что мы видим в новостях, есть и другие применения искусственного интеллекта, помимо рекомендаций по поиску, алгоритмов ленты новостей и распознавания лиц. Мы могли бы использовать ИИ для ускорения научного моделирования, чтобы открывать новые материалы для борьбы с растущими выбросами углерода, для улучшения доставки лекарств и лечения рака, а также для лучшего понимания мира вокруг нас. Существует множество важных вариантов использования ИИ, в которых отсутствуют многие (но не все) острые и морально неоднозначные проблемы технологической индустрии для достижения научного прогресса.

Для этого потребуется новое поколение двуязычных ученых, свободно владеющих наукой и машинным обучением. Действительно, эта необходимость уже признается в некоторых областях, например в физике высоких энергий. Есть много грандиозных заявлений об ИИ и DL - но не будет преувеличением сказать, что глубокое обучение уже революционизирует то, как мы делаем науку. Но для этого сначала нужны ученые, обладающие навыками использования этого нового инструмента.

Заключение

Невероятное возбуждение вызвали человеческие способности, продемонстрированные системами глубокого обучения при игре в настольные игры, вождении автомобилей и распознавании изображений. Но эти достижения были вызваны сетевыми технологическими компаниями, которые заинтересованы в конкретном подмножестве проблем, имеющих отношение к их потоку доходов. Существует множество возможностей для применения глубокого обучения к гораздо более фундаментальным проблемам науки и техники. Используя глубокое обучение, мы можем улучшить наше понимание галактик во Вселенной, преобразовать геномные последовательности и определить материалы следующего поколения для развивающегося (более горячего) мира. Я надеюсь, что по мере того, как мы обучаем первое поколение ученых, занимающихся глубоким обучением, возможно, некоторые из них решат использовать свой уникальный набор навыков, чтобы лучше понять окружающий их мир природы.

Недавно я начал выпуск бесплатного информационного бюллетеня о применении машинного обучения и искусственного интеллекта в научных областях и инженерных задачах (ml4sci). Вы можете найти его на ml4sci.substack.com. Не стесняйтесь добавлять предложенную статью или тему, и если вам действительно нравится то, что вы видите, подпишитесь!

Глубокое обучение в науке

Обзор возможностей и тенденций

Обзор

Расцвет эмпирических моделей

Почему именно глубокое обучение?

Глубокое обучение в науке

3 столпа

Характеристика темпов принятия DL по различным областям

Глубокое обучение и философия науки

Шаблон общих задач для DL in Science

Важные различия между «традиционными задачами ДО» и научными проблемами

Новый путь вперед

Заключение

Вопросы по теме