«В 1904 году на конференции по физике в Сент-Луисе большинство физиков, казалось, отвергали атомы, и его даже не пригласили на секцию физики». - Страница Википедии о Людвиге Больцмане.

К счастью для нас, мы живем в эпоху, когда мы можем видеть атомы с помощью атомно-силового микроскопа. И, к счастью для себя, я лично занимаюсь разработкой технологий чтения ДНК молекула за молекулой для получения полного генома человека или гориллы. Без теории атомов многие современные технологические чудеса были бы невозможны. Представьте себе, что если бы кто-то жил в 19 веке, когда существование атома было еще грубой теорией, как бы можно было доказать существование атома с помощью инструментов, которые были способны проводить только макроскопические измерения?

Больцман впервые сформулировал распределение Больцмана P(S) ~ exp(-E_s/kT), когда изучал статистическую механику газов в равновесии. Больцман также был пионером в определении современной атомной теории. В своей более поздней жизни он защищал и обсуждал атомную теорию с другими выдающимися физиками того же периода времени. Некоторые считали, что его трагическое самоубийство в 1906 году было связано с депрессией, вызвавшей его долгую борьбу за теорию атома с конкурирующими учеными. (Думаю, эту книгу было бы интересно прочитать: Атом Больцмана: великие дебаты, положившие начало революции в физике.)

Распределение Больцмана P(S) ~ exp(-E_s/kT) дает вероятность того, что система находится в состоянии s с энергией E. Состояние s обычно определяется некоторым коллективным паттерном микроскопических физических объектов, например, конкретной конфигурацией набор спинов в верхнем или нижнем состоянии. Это распределение вероятностей связывает микроскопический мир с некоторыми макроскопическими наблюдаемыми. Например, можно вывести закон идейного газа (PV=nRT) из предположения, что идеальный газ состоит из простых атомов, распределение энергетических состояний которых соответствует распределению Больцмана.

Машина Больцмана (BM) и ограниченная машина Больцмана (RBM) были представлены в середине 1980-х годов как модель искусственных нейронных сетей, которые могли учиться на наборе обучающих шаблонов и воссоздавать эти шаблоны автономно как генеративная модель. В какой-то степени то, что «Д. Экли, Г. Хинтон, Т. Сейновскип и другие показали, что можно построить физическую систему, в которой больцмановское распределение системы P(S) отражало вероятностное распределение обучающей выборки.

Энергетическая модель, используемая в BM и RBM, тесно связана с моделью спинового стекла в статистической механике. Это очень простая модель. Вам не нужно знать первоначальное объяснение Дираком существования спина из теории относительности и квантовой механики. (Если вы настаиваете, проверьте https://en.wikipedia.org/wiki/Dirac_equation) В большей части нашего контекста спин — это то же самое, что и бит, некоторая элементарная единица s_i в позиции i, которая имеет два шаг 1/0, +/- или вверх/вниз. Стекло означает, что система обычно переходит в состояние, в котором между этими элементарными единицами имеется некоторая внутренняя запутанность, а не состояние с минимально возможной энергией. Фактически, поскольку такая система может иметь сложные запутанные структуры состояний, это делает возможным их использование для машинного обучения.

Энергия системы «спин-галс» определяется как E = \sum_{ij} W_{ij} s_i s_j. Это обманчиво простые вопросы, которые вдохновляют тысячи исследовательских работ, изучающих свойства такой системы в физике и сообществе машинного обучения. Что ж, хотя написать такое уравнение легко, сложность возникает из-за «веса связи», W_ij может иметь сложную форму.

Когда веса соединения «W_{ij}» все положительные, проблема будет относительно простой. С другой стороны, вес связи «W_{ij}» может быть как положительным, так и отрицательным, задача нахождения «низкоэнергетических состояний» вдруг становится нетривиальной задачей. Я хотел бы вернуться к этому когда-нибудь в будущем. Однако именно такое нетривиальное поведение машины делает ее полезной для машинного обучения.

Возвращаясь к BM и RBM, когда я начал изучать оригинальную статью, в которой представлена ​​такая основанная на физике модель машинного обучения, я был удивлен, что в Paul Smolensky’s Paper используется термин атомы знаний, который представил RBM для объяснения природы знания.

Пункт 5. Атомы знаний — это фрагменты представлений, которые накапливаются с опытом. Смоленский в Обработке информации в динамических системах: основы теории гармонии, 1986 г.

Я думаю, как и Больцман, Смоленский, вероятно, думал, как разум может «упростить» сложный макроскопический мир, подобно тому, как физики объясняли все различные фазы материала простой атомарной теорией. С физической моделью, такой как RBM, она предоставляет механизм, который может «обобщать» явную информацию (функции представления / данные обучения) со скрытыми единицами (атомами знаний). Смоленский позаимствовал пару полезных понятий, напр. отжиг моделирования, фазовый переход и нарушение симметрии и т. д. из статистической механики, чтобы объяснить, как такую ​​систему можно использовать для моделирования того, как работают эти «атомы знаний».

До того, как я попал в статью Смоленского, я не слышал, чтобы кто-нибудь использовал термин «атомы знаний» (4540 совпадений против «Ограниченной машины Больцмана» 81 200 совпадений в поиске Google). Возможно, тогда Смоленский был слишком амбициозен, придумывая термин «атомы знания». Но, если взять за ориентир то, что происходит в последней половине 19 века, может быть, у нас просто пока нет нужных «инструментов», чтобы «измерять и подтверждать» такие «атомы знания». Я думаю, что это еще одна захватывающая эра для открытий с доступными масштабами вычислений и непрерывным прогрессом в разработке научных инструментов сегодня.

Сможем ли мы идентифицировать такие «атомы знания» помимо каких-то абстрактных понятий, еще предстоит увидеть. Недавний прогресс глубокого обучения показал большую полезность для решения реальных проблем, выходящих за рамки теории. В какой-то степени мы можем быть похожи на тех «инженеров», которые проектировали (настоящие тепловые) «двигатели» в 19 веке со всем различным набором инструментов глубокого обучения. Мы будем строить более совершенные машины с искусственным интеллектом, даже не имея полного представления о том, как это работает. Но благодаря такому процессу мы могли бы в конечном итоге узнать, что такое такие «атомы знания», и это могло бы привести к лучшему пониманию того, как мы думаем.