Этим летом мы с моей командой объединили усилия с исследователями из Центра технологий искусственного интеллекта NVIDIA, чтобы спроектировать и разработать помощника по исследованию искусственного интеллекта (ИИ) с использованием методов машинного обучения в Сингапурском университете технологий и дизайна.

Мотивация этого проекта? Наличие AI Assistant выполняет часть процесса академических исследований, уменьшая когнитивную нагрузку на исследователей и высвобождая им драгоценное время и ресурсы для выполнения задач более высокого порядка, таких как создание идей, экспериментальное проектирование и письмо.

В этой статье мы поговорим о некоторых важных идеях, которые мы почерпнули, и о том, как мы могли бы подумать о разработке систем искусственного интеллекта для создания пространств знаний, навигации и управления данными, а также предоставления аналитических сведений, а не информационной перегрузки.

Проектирование пространства знаний

Оказывается, значительная часть исследовательского процесса, особенно на ранних этапах, имеет высокий потенциал для автоматизации. Исследование, которое мы провели с участием 64 исследователей, выявило два ключевых момента в понимании болевых точек раннего исследования: (1) пространство информации было просто слишком сложным для навигации, и (2) структура этого пространства была очень сложной, принудительная навигация с помощью рекурсивных путей цитирования между научными статьями - без гарантии найти что-то стоящее.

Но что, если бы мы могли взять эту, казалось бы, неизбежную, неразрешимую проблему для людей, и превратить ее в автоматизируемую задачу? Сможем ли мы легко локализовать себя в этом информационном пространстве и упростить изучение близлежащих областей? Это была наша цель.

Нам нужно преобразовать проблему в инженерный - как мы можем построить и проанализировать пространство исследовательских знаний и убедиться, что оно легко проходимо, беспристрастно и, в конечном итоге, полезно для человека-исследователя? Сначала нам нужен огромный структурированный источник исследовательских знаний, и для действительно хорошего образца мы обращаемся к ArXiv, архиву электронной печати Корнелла, чтобы сформировать нашу базу знаний.

Статьи, представленные в ArXiv, часто предназначены для публикации на конференциях или в журналах и потенциально проходят мучительно медленный процесс рецензирования. Неудивительно, что ArXiv быстро становится де-факто стандартом для быстрого утверждения исследовательских идей, неформального рецензирования и демократизации доступа к научной работе для некоторых областей науки. Проверенные исследователи самостоятельно отправляют препринты в ArXiv, и им рекомендуется отправлять их в формате (La) TeX. Если мы исследуем страницу Массовый доступ к исходным файлам ArXiv, мы увидим, что большие коллекции этих статей в формате.tex доступны для загрузки.

Коротко о LaTeX

Для начала ниже показан простой визуализированный документ и его исходный код LaTeX.

\documentclass{article}
\begin{document}

\title{Introduction to \LaTeX{}}
\author{Author's Name}

\maketitle

\begin{abstract}
The abstract text goes here.
\end{abstract}

\section{Introduction}
Here is the text of your introduction.

\begin{equation}
    \label{simple_equation}
    \alpha = \sqrt{ \beta }
\end{equation}

\subsection{Subsection Heading Here}
Write your subsection text here.

\section{Conclusion}
Write your conclusion here.

\end{document}

Файл TeX содержит основные инструкции по набору и может быть преобразован в различные форматы, чаще всего в PDF. LaTeX содержит набор удобных макросов, которые упрощают определение и повторное использование основных элементов написания, таких как заголовки, заголовки, уравнения, разделы и нижние колонтитулы.

Структура научных статей

Хранение документов в TeX означает, что все, что вам нужно для воссоздания этих красивых, структурированных и отформатированных исследовательских работ во всей их красе, - это их исходные .tex файлы, а также любые графические или мультимедийные файлы, на которые ссылается источник.

Если вы практикуете машинное обучение, вы, вероятно, уже заметили, что эти рефераты, заголовки, разделы, подразделы и т. Д., А также их текст и графическое содержание образуют пары метка-данные, которые уже были назначены для нас! Теперь мы можем рассматривать весь ArXiv как структурированный набор данных, состоящий из меток и текста (или изображений и других носителей). Например, если нас интересует классификация строк текста в статье, мы можем обучить наши модели классификации на образцах, которые выглядят следующим образом:

Label: \section{Results} -> 'results'
Data:  "The results of our method...

Наличие должным образом структурированных исследовательских работ также позволяет нам попытаться угадать, какие части исследовательских работ важны - если мы знаем, что реферат статьи представляет собой хорошее резюме всего текста, то мы можем обучить модели попытаться воссоздать Резюме с полным текстом исследовательской работы.

Чтобы развить эту идею дальше, некоторые статьи ArXiv содержат структурированные аннотации, которые представляют собой небольшие помеченные резюме каждого раздела (например, данные, метод, результаты, заключение) статьи в абстрактном разделе, по сути, предоставляя пары более длинного текста в их обычных разделах. , с их резюме, найденным в аннотации. Неудивительно, что в последнее время их использовали для обучения моделей абстрактного реферирования!

Сравните это с потоком дизайнерских проблем, которые возникают, если мы пытаемся проанализировать PDF или отсканированные документы: следует ли нам использовать OCR или мы должны попытаться реконструировать метки из изображений? Или стоит попробовать преобразовать PDF обратно в LaTeX? Какая конверсия потенциально убыточна? Становится ясно, что использование LaTeX, где это возможно, дает нам самые чистые данные из исходных дистрибутивов (авторов!), Которые их сгенерировали, абсолютно без шума.

Пространство научных статей

Итак, теперь мы знаем, как выглядит отдельная исследовательская работа, но они выглядят несопоставимыми: похоже, нет способа правильно сравнить эти статьи! Как AI Assistant может создать представление знаний из имеющихся у него исследовательских работ и упростить его таким образом, чтобы актуальные запросы, такие как «Варка яиц», или структурированные вопросы, например «Что такое ключевые различия между сверткой и корреляцией? », может начать иметь смысл? Что значит задать вопрос Ассистенту и как он будет перемещаться по этому пространству, чтобы попытаться вернуть ответ?

Предположим, что наступил 2028 год, и вы - действующий AI-помощник человеческого уровня. Вы пытаетесь ответить на вопрос свертка или корреляция, чтобы помочь коллеге-исследователю. Предположим также, что вы уже понимаете, что вам поручено сравнить две вещи, и, учитывая срочность, подразумеваемую ключевыми различиями, вы знаете, что должны возвращать только самые k наибольших различий. Теперь у вас есть два ключевых слова: свертка и корреляция. Вы знаете, что должны просмотреть документы, в которых упоминается одно или оба слова, и проанализировать сходства между их использованием, и, таким образом, вы сможете обнаружить различия с помощью вычитающего, логического подхода. Легко, не правда ли!

Теперь вернемся к сегодняшнему дню 2019 года и представим, что вы создаете Ассистента. Вы застряли - у вас есть огромная коллекция документов, но у вас нет способа обработать сходство или релевантность между документами, что является первым шагом к сравнению между «сверткой» и «корреляцией». Или ты?

Есть несколько возможностей. Если мы посмотрим на всю нашу коллекцию документов ArXiv, мы можем понять, что они на самом деле состоят из множества слов. Мы можем предположить, что наличие схожих слов, стилей или содержимого в двух текстовых документах означает, что весьма вероятно, что они имеют отношение друг к другу. Это подводит нас к двум популярным методам оценки отношений между словами в документах: (1) методы ранжирования и (2) векторные вложения.

Такие методы ранжирования, как TF-IDF или BM25, используют вхождение слов в документах в качестве маркеров сходства. TF-IDF считает документы похожими только в том случае, если в них часто используются отличительные слова. Вложения векторов обычно обучаются на большом корпусе (например, в нашей коллекции статей), и во время вывода генерируют векторы для данного слова, которыми затем можно манипулировать численно - например, используя косинусное расстояние. Кроме того, контекстно-зависимые вложения, такие как ELMo и BERT, позволяют нам различать одни и те же слова, используемые по-разному.

Оба эти метода позволяют нам перемещаться по пространству между статьями, определяя некоторую форму сходства между ними. Кроме того, мы получаем возможность сравнивать документы друг с другом, чтобы сказать, что это более актуально, чем то. И это, возможно, первый шаг к обучению способностям расставлять приоритеты в информации, ранжировать знания по критериям, сравнивать исследовательские работы, темы и запросы по широкому спектру показателей.

Если текстовое содержание нашей исследовательской коллекции было недостаточно богатым, ArXiv также хранит метаданные о каждой статье. Все статьи поставляются с файлами метаданных, которые как минимум содержат имена авторов, названия статей, категории тем, текстовые выдержки и даты, предоставляя дополнительные параметры или показатели для оценки релевантности и сходства наборов исследовательских документов. И кто сказал, что исследовательские идеи или знания изолированы внутри документов или что сходство слов должно быть основой пространства? Какие еще типы пространств мы можем построить с помощью функций, которые мы можем извлечь? Что о…

Цитаты

Библиографии - важные подсказки относительно того, похожа ли исследовательская статья на другую. Представьте себе создание огромного графа знаний, узлами которого являются отдельные исследовательские работы, а ориентированные ребра несут информацию о том, какая статья процитирована. Можем ли мы узнать веса для этих ребер на основе содержания статей? Это совершенно другое - и, возможно, более структурированное - представление пространства исследования! Важно то, что теперь мы можем визуализировать реальные связи между статьями, если представить себе эту огромную сеть ссылок, что упрощает построение алгоритмов поиска для их обхода, как в задачах с графами, к которым мы так привыкли. Наряду с текстовым представлением сходства, добавив идею цитирования в наше пространство ArXiv, теперь у нас есть измерения, кодирующие внешние отношения между статьями, относящиеся к области авторства и передачи идей. .

Однако восстановить всю сеть ссылок непросто. Статьи, которые сами по себе не на ArXiv, часто нарушают пути цитирования, поскольку мы пытаемся рекурсивно создать эту сеть. Что, если вам нужно процитировать очень-очень старую статью? Или что, если бы эта конкретная статья была на ViXra.org?

Проблемы с честным знанием

Каким бы увлекательным ни было стремление к созданию знаний, возникает вопиющая проблема, когда мы пытаемся приравнять наш кропотливо собранный набор данных к знаниям и когда мы не принимаем во внимание, что ArXiv является всего лишь образцом всей доступной исследовательской информации. Важно отметить, что, просто используя статьи TeX из ArXiv, мы категорически склоняем помощников ИИ к количественным исследованиям конкретных проверенных исследователей в 8 областях исследований, представленных с 1 января 2000 года по настоящее время.

Процедуры обучения также должны учитывать статистические дисбалансы, такие как количество представлений между полями или сезонность представлений. Мы также сталкиваемся с предвзятостью в более крупных временных масштабах: изменение языка в документах в течение длительных периодов времени активно исследуется в Digital Humanities - как изменения в структуре предложения и использовании слов с течением времени могут повлиять на наши алгоритмы сходства и реферирования, и как мы можем адаптировать их, чтобы учесть эти опасения?

Есть много открытых вопросов, над которыми стоит задуматься, и на данный момент эти проблемы могут показаться довольно неразрешимыми. Но я надеюсь, что эти идеи, почерпнутые из попытки спроектировать пространство навигационной информации, будут полезны любому, кто захочет решить аналогичные или косвенно связанные проблемы, будь то в области ИИ или нет.

В качестве беззаботного заключения зададим интересный вопрос - как наш сверхразумный, захватывающий ArXiv AI Assistant сможет выучить ерунду?