GeoVec: вложения слов для наук о Земле

Аналогии, категоризация, родство и пространственная интерполяция вложений слов.

Вступление

Как я описал в первом посте Глубокое обучение и почвоведение, часть работы почвоведа выполняется на местах и состоит в максимально подробном описании того, что мы видим. Это важные записи, которые помогают нам сформировать мысленную модель изучаемой области и напоминают нам о деталях, которые в противном случае мы могли бы забыть.

Вот (часть) типичного описания почвы:

Ap1 - от 0 до 7 дюймов; коричневая (10YR 5/3) пепельная мелкая супесь, очень темная серовато-коричневая (10YR 3/2) влажная; слабая мелкозернистая структура; мягкие, очень рыхлые, нелипкие и слегка пластичные, обычно очень тонкие и тонкие корни; несколько очень мелких интерстициальных и трубчатых пор; 15% пемзы размером менее 2,0 мм; нейтральный (pH 6,6); четкая гладкая граница. (Толщиной от 0 до 8 дюймов)

Ap2 - от 7 до 9 дюймов; коричневая (10YR 5/3) пепельная мелкая супесь, очень темная серовато-коричневая (10YR 3/2) влажная; слабая среднезернистая структура; слегка твердый, рыхлый, нелипкий и слегка пластичный; обычные очень тонкие и тонкие корни; общие тонкие и очень мелкие трубчатые и интерстициальные поры; 20% пемзы размером менее 2,0 мм; нейтральный (pH 7,0); четкая волнистая граница. (Толщиной от 0 до 7 дюймов)

Мы можем видеть, что он организован по слоям и содержит такие детали, как цвет, наличие корней, описания пор, текстурный класс (расчетное соотношение глины, ила и песка) и т. Д. В большинстве случаев описания следуют некоторому рекомендуемому формату. но они могут содержать более или менее произвольный текст в зависимости от исследования.

Эти описания слоев обычно сопровождаются образцами, которые отправляются в лабораторию, которые затем могут быть использованы, например, для создания карт свойств почвы, подобных той, которую я описал в Цифровом картировании почвы с помощью CNN. Но описания почти никогда не используются сами по себе, хотя и содержат важную информацию. Например, слой темного цвета может иметь относительно высокую концентрацию органического вещества по сравнению со слоем более светлого цвета (конечно, есть исключения).

Вложения слов

Чтобы использовать ценную информацию, содержащуюся в описаниях, мы с моим коллегой Игнасио Фуэнтесом решили поэкспериментировать с обработкой естественного языка (NLP) для создания встраиваемых слов, зависящих от предметной области. Я не собираюсь объяснять, что такое встраивание слов, но вы можете найти хорошие статьи, такие как Введение в встраивание слов.

Разработка модели

Поскольку большинство языковых моделей учитывают совпадение слов, мы использовали относительно большой корпус из 280 764 полнотекстовых статей, связанных с науками о Земле. После проработки текста (токенизация, удаление игнорируемых слов и т. Д.) Мы приспособили модель GloVe для создания встраиваемых слов, которые мы могли бы использовать в других приложениях.

Оценка вложений слов

Загрузка 280 764 статей, их профессиональная обработка и установка модели GloVe была на самом деле простой частью процесса. Поскольку нам нужно было оценить сгенерированное векторное пространство, мы создали набор тестов для конкретной предметной области, учитывающий три задачи, а именно аналогию, родство и категоризацию.

Если эти задачи вам не знакомы, вот краткое описание и примеры.

Аналогия: Учитывая две связанные пары слов, a: b и x: y, цель задания - ответить на вопрос a относится к x, как b относится к?. Пример, связанный с минералами и их цветами: халькантит относится к синему, как малахит к ___? (зеленый)".
Родство: для данной пары слов (a, b) субъект-человек присваивает оценку 0 или 1, если слова не связаны или связаны, соответственно. Примером может служить пара «(Андисол, Вулкан)», и поскольку Андисоль (тип почвы) относится к вулканическим областям, оценка взаимосвязи должна быть 1.
Категоризация: даны 2 набора слов s1 = {a, b, c,…} и s2 = {x, y, z,…} , этот тест должен уметь правильно назначать каждое слово соответствующей группе с использованием алгоритма кластеризации (см. пример в результатах).

Полученные результаты

Мы сравнили наши доменные встраивания (GeoVec) с общими доменными встраиваниями, предоставленными авторами GloVe, и мы наблюдали общее увеличение производительности на 107,9%. Конечно, это ожидаемый результат с учетом специфики поставленных задач.

Аналогии

Если вы знакомы с встраиванием слов (или читали это введение в встраивание слов), вы, вероятно, видели графики, показывающие отношения между столицами и странами, король-мужчина / королева-женщина или другие группы аналогий. В этой работе нам удалось получить аналогичные результаты, но относящиеся к наукам о Земле.

По сюжету любую пару связанных слов можно выразить аналогией. Например, на левой панели можно создать аналогию «аргиллит для глины, как песчаник для ___? (песок) », и первый результат модели действительно« песок ». На левой панели можно наблюдать простые аналогии, в основном синтаксические, поскольку «аргиллиты» содержат слово «глина». Правая панель представляет собой более сложную взаимосвязь, в которой названия камней присваиваются соответствующему типу породы.

Категоризация

В случае категоризации на изображении ниже показаны два примера, в которых алгоритм k-средних может правильно различать группы вложений. На левой панели показаны группы классов почв из двух различных систем классификации (USDA и WBR). Существует только один неоднозначный класс почвы (Vertisols), который присутствует в обеих системах классификации, но вложения правильно кодируют эту взаимосвязь, помещая этот класс между обеими группами. На правой панели показан пример того, как вложения кодируют информацию с разных уровней агрегации. Те же самые почвы, которые были правильно разделены на две группы на левой панели, они образуют сплоченную группу по сравнению с типами пород на правой панели.

Интерполяция вложений

Возможно, вы видели классные примеры интерполяции скрытого пространства для изображений, такие как пример интерполяции лица ниже, но он обычно не используется в контексте встраивания слов.

В случае слов мы хотели выяснить, дают ли интерполированные вложения (пробел «между» двумя словами) какие-то…

Чтобы сгенерировать интерполированные вложения, мы получили линейные комбинации вложений двух слов по формуле:

v_int = α ∗ v_a + (1 - α) ∗ v_b

где v_int - это интерполированное вложение, v_a и v_b - это вложения двух выбранных слов. Изменяя значение α в диапазоне [0, 1], мы генерировали градиент вложений. Для каждого промежуточного вложения, полученного интерполяцией, мы вычисляли косинусное сходство по всем словам в корпусе и выбирали ближайшее из них.

На изображении слева вы можете увидеть градиент встраивания между словами «валун» и «глина». Эти два крайних слова соответствуют разным размерам частиц, с крупным и мелким размером, соответственно. Более полный список размеров частиц в порядке от крупного до мелкого: «валун» ›« булыжник »› «гравий» ›« песок »› «ил» ›« глина ». Результирующие интерполированные вложения фактически соответствуют (близки) этим размерам частиц в том же порядке!

Мы надеялись увидеть этот результат с интерполяцией (тем не менее, мы были весьма удивлены!), Поскольку мы хотели исследовать идею пространственной интерполяции вложений, которая ближе к нашей области.

Пространственная интерполяция вложений

Идея этого проекта заключалась в создании трехмерной геологической карты на основе наблюдений за стволом скважины, распределенных, как показано на карте ниже. Описания имеют соответствующие координаты и глубины, аналогично описанию почвы в верхней части этого блога.

Чтобы выполнить 3D-интерполяцию, сначала нам нужно было сгенерировать «вложения описания». Поскольку это доказательство концепции, мы решили использовать простой подход вычисления среднего значения вложений слов в каждом описании, в результате чего получилось одно вложение с 300 компонентами (количество компонентов GeoVec) для каждого описания.

После интерполяции вложений мы получили 3D-модель, которая выглядит так:

Левая панель показывает наиболее вероятный класс на воксель (полученный из мультиклассового классификатора), средняя панель показывает индекс путаницы между первым и вторым наиболее вероятным классом на воксел, а правая панель показывает соответствующую энтропию.

Полное описание процесса интерполяции и мультиклассового классификатора можно найти в соответствующей публикации (на данный момент она находится на рассмотрении, но я обновлю этот пост после того, как публикация будет принята).

Заключительные слова

Это только первые попытки использовать вложения слов в геонауках. Результаты были очень интересными, поскольку модель GloVe, кажется, довольно хорошо отражает многие «естественные» свойства (например, размер частиц). Конечно, это возможно только в том случае, если корпус будет достаточно большим и разнообразным.

Мы сделали встраивание общедоступным, чтобы люди могли использовать их и экспериментировать с ними. Мы также сделаем набор тестов доступным, чтобы люди могли расширять его новыми и более сложными тестами, а также использовать их в качестве основы для новых (и более совершенных!) Моделей.

Я вижу большой потенциал в использовании встраивания слов в геолого-геофизических исследованиях. За эти годы было собрано много описательной информации, которую можно «спасти» и использовать. Я также думаю, что можно дополнить числовые данные встраиванием слов, поэтому я буду продолжать экспериментировать и писать об этом. Будьте на связи!

Цитаты

Подробнее об этой работе можно прочитать в соответствующих статьях.

Падариан, Дж. И Фуэнтес, И., 2019. Вложения слов для применения в геонауках: разработка, оценка и примеры концепций, связанных с почвой. ПОЧВА, 5, 177–187, https://doi.org/10.5194/soil-5-177-2019.
Фуэнтес, И., Падариан, Дж., Иванага, Т., Вервурт, В., 2019. Трехмерное литологическое картирование описаний стволов скважин с использованием вложения слов. Компьютеры и науки о Земле (на рассмотрении).

Вложения доступны по адресу:

Падариан Дж., Фуэнтес И., 2019. GeoVec. Https://doi.org/10.17605/OSF.IO/4UYEQ.

использованная литература

Кингма, Д. и Дхаривал, П., 2018. Свечение: Генеративный поток с обратимыми свертками 1x1. В достижениях в системах обработки нейронной информации (стр. 10215–10224).