Недавно на глаза попалась интересная учебная статья, которая была опубликована в геофизическом журнале The Leading Edge более 2 лет назад. В статье показано, как использовать алгоритм обучения с учителем с помощью машины опорных векторов (SVM) для определения литофаций (типов горных пород) на основе измерений каротажа из 8 скважин. Помимо кажущейся глубины измерения, в каротаж записываются дополнительные 7 скалярных атрибутов, включая гамма-лучи, удельное сопротивление, фотоэлектрический эффект, нейтронно-плотную пористость, разницу нейтронной плотности пористости, морской/неморской индикатор и относительное положение. Затем был инициирован трехмесячный конкурс с целью дальнейшего улучшения с использованием любого подхода машинного обучения. Когда весной 2017 года конкурс завершился, было объявлено лучшее решение победителя. Оказалось, что ведущая команда использовала XGboost для деревьев с экстремальным градиентом плюс эффективную разработку функций, и было достигнуто значительное улучшение точности прогнозирования. Очень впечатляющая работа!

Тогда возникает естественный вопрос: можем ли мы сделать еще лучше или, если возможно, значительно лучше? Короткий ответ — «Да», особенно с учетом данных.

Дальнейшее улучшение поверх лучшего решения, несомненно, совсем непростая задача. Мой соавтор Джи Чен и я неделями пытались изучить всевозможные алгоритмы и причудливую разработку функций, но просто не смогли найти лучшее решение. Затем однажды одна из наших дискуссий вдохновила нас посмотреть на проблему с другой точки зрения. Вместо того, чтобы погрузиться в изучение всевозможных причудливых алгоритмов и построение сложных функций, почему бы не сделать шаг назад и не подумать об общей картине и физике, стоящей за ней?

Ну, по сути, эти логарифмические измерения подчиняются ничему, кроме физики, хотя они также размыты или загрязнены некоторыми систематическими и статистическими неопределенностями. Различные измерения бревен просто исследуют одно и то же — горные породы — путем изучения их физических свойств с помощью различных инструментов обнаружения. Различные породы будут иметь разные физические свойства и, следовательно, разные реакции на внешние зонды.

Наше внимание привлекли два атрибута каротажных измерений: удельное сопротивление (R) и нейтронно-плотная пористость (P). Удельное сопротивление измеряет способность подповерхностных материалов сопротивляться или подавлять электропроводность, в то время как нейтронно-плотная пористость (P) измеряет пористость подповерхностных материалов. Интуитивно более высокая пористость означает большее поровое пространство, что в целом указывает на меньшее удельное сопротивление. Таким образом, в первом порядке эти две величины должны быть отрицательно коррелированы. Есть ли какая-либо литература, в которой уже подробно изучалась взаимосвязь между R и P? Может быть, мы сможем получить некоторое представление, начиная оттуда?

Затем мы провели небольшое исследование и быстро нашли одно эмпирическое уравнение, названное в честь Гаса Арчи (1972). Арчи резюмировал свои наблюдения и указал, что логарифмические формы log(R) и log(P) будут линейно антикоррелированы при некоторых предположениях. Чтобы проверить, применимо ли уравнение Арчи к этой задаче каротажа скважины, мы случайным образом выбрали 3 фации (в данном случае 1,3,7) и построили график зависимости log(R) от log(P), накладываясь на линейную аппроксимирующую кривую. Оказывается, по крайней мере, для некоторых классов (например, для фаций 1 и 3 на этом графике) сила разделения довольно велика.

Таким образом, мы создаем новую функцию как log(R)/log(P) и загружаем ее в экосистему машинного обучения. Удивительно, но со всем остальным таким же, как у лучшего решения, точность окончательного прогноза повышается примерно на 5%. Сравнивая матрицу путаницы из эталонного теста (с подходом победителя) и матрицу путаницы из нашего подхода, становится очевидным, что точность прогнозирования значительно повышается благодаря включению этой новой функции в наш подход. Строка для BS пуста, потому что прогнозируемая скважина не встречает этот тип породы.

На этом графике показано прямое визуальное сравнение истинных фаций и предсказанных фаций, а также каротажных измерений. В целом, наш подход обеспечивает лучший прогноз классификации фаций, чем эталонный (подход с лучшими результатами).

Чтобы проверить надежность наблюдаемых подъемов, вызванных этой инженерной функцией, мы протестировали множество вариантов, включая различные случайные начальные числа, многократную перекрестную проверку и различные алгоритмы машинного обучения. Улучшение кажется устойчивым на уровне ~ 5%.

Извлеченный урок: расширение функций, включающее знания предметной области, может еще больше улучшить возможности машинного обучения. В конечном счете, ничто не заменит идеи, которые люди могут вложить в разработку функций.

Это совместная работа доктора Цзе Чена и меня. Результат был представлен на семинаре SEG Максимизация стоимости активов с помощью искусственного интеллекта и машинного обучения (2018 г.).
Документ: arxiv.org/abs/1808.09856