«Каждый, наверное, знает, что такое условный рефлекс. Если два любых раздражителя многократно проводить одновременно друг с другом (например, звонок звонит одновременно с едой), то через некоторое время один из этих раздражителей (звонок) вызывает ответную реакцию организма (слюноотделение) на другой стимул (еда). Эта адгезия носит временный характер и, если ее не укреплять, постепенно исчезает. Значительная часть кибернетических проблем, известных сейчас как математическая теория обучения, охватывает такие простейшие схемы, которые не исчерпывают и малой доли всей сложной высшей нервной деятельности человека и при анализе условнорефлекторной сама деятельность представляет собой лишь ее начальную стадию.

Андрей Колмогоров, человек, придумавший современную теорию вероятностей, Автоматы и жизнь, 1961 г.

Меня до сих пор мучает проблема, как просто и понятно объяснить разницу между методом научного понимания и методом обучения с подкреплением.

Что значит начать с наблюдения, а не с априорного убеждения?

Существует рассуждение, называемое байесовским выводом, потому что в нем используется теорема Байеса, чтобы показать, как меняются наши знания. Этот вывод можно представить как электронное устройство, в котором есть вход, выход и фильтр, модулирующий сигнал между входом и выходом.

В классическом байесовском умозаключении мы имеем на входе наши существующие знания, а на выходе мы получаем наши знания, уже обновленные в результате наблюдения. Фильтр – это, соответственно, данные, полученные в результате наблюдения.

Если наблюдение подтверждает наши старые знания, то обновления не происходит. Если не подтверждается, то происходит частичное обновление. Если ряд наблюдений не подтверждает старые знания, то они коренным образом обновляются.

Так мы учимся постепенно методом многократного повторения одного и того же действия. Например, подбрасываем монету и наблюдаем, как она упала: орлом или решкой вверх.

Начальная вероятность 50/50. Но если монета вдруг согнется, то вероятность может стать 60/40. Мы это заметим, но не сразу, только после серии подбрасываний, достаточной для определения новой вероятности выпадения решки или орла вверх.

Теперь представьте, что мы поменяли местами провода на входной и фильтрующей линиях. Теперь наблюдение — это вход, а наши существующие знания — это фильтр.

Теперь мы смотрим на монету и не знаем, с какой вероятностью она выпадет решкой или решкой вверх. У нас нет статистики по предыдущим броскам, но мы знаем из прошлого опыта, что плоские предметы имеют тенденцию падать на одну из своих плоских сторон. Если предмет вращается, то вероятность того, что он упадет то одной, то другой плоской стороной вверх, примерно равна.

То есть мы выводим вероятность из осмотра монеты и сравнения ее с другими подобными предметами в сходных условиях. Нам вовсе не нужно подбрасывать монету, чтобы понять, что ее падения любой стороной вверх примерно равны.

Нам не нужно точно рассчитывать вероятность, строить графики из серии бросков. Мы просто сразу поняли это, изучив монету и сравнив ее с другими подобными объектами, с которыми у нас уже был опыт. Это научный метод познания.

Если монета согнулась так, что стала заметной, мы можем проверить, какова стала вероятность выпадения орла или решки, подбрасывая монету несколько раз.

Если внешний вид монеты не изменился, но решка стала выпадать чаще, чем решка, будем искать причину подмены и не успокоимся, пока не найдем ее.

Все виды компьютерного моделирования очень распространены в современной науке. Но в нем, как и в машинном обучении на основе моделей, возникает большой вопрос: откуда мы берем исходные параметры модели?

Как правило, их принято задавать сверху вниз — то есть зашивать те знания, которые на входе, а затем пропускать их через фильтр наблюдения и соответствующим образом корректировать.

А нужно всего лишь поменять местами входной и фильтрующий провода, чтобы модель сама нашла (или создала?) начальные параметры.