Полный набор данных из 1,7 млн ​​статей в формате arXiv теперь доступен бесплатно на Kaggle.

В течение почти 30 лет arXiv обслуживает общественность и исследовательские сообщества, предоставляя открытый доступ к научным статьям, от обширных разделов физики до многих дисциплин информатики и всего, что между ними, включая математику, статистику, электротехнику и количественные исследования. биология и экономика.

Огромное количество исследовательских работ arXiv одновременно полезно и сложно. Будь то аспирант, набирающий обороты в своей области, признанный профессор, углубляющийся в смежные области, или исследователи, ищущие общую картину для общественного блага, этот богатый массив информации предлагает значительную, но иногда подавляющую глубину.

Чтобы сделать arXiv более доступным, мы представляем на Kaggle бесплатный открытый конвейер для машиночитаемого набора данных arXiv: хранилище 1,7 миллиона статей с соответствующими функциями, такими как названия статей, авторы, категории, аннотации, полный текст PDF-файлы и многое другое.

«Наличие всего корпуса arXiv на Kaggle значительно увеличивает потенциал статей arXiv», - сказала Элеонора Пресани, исполнительный директор arXiv. «Предлагая набор данных на Kaggle, мы выходим за рамки того, что люди могут узнать, читая все эти статьи, и делаем данные и информацию, лежащую в основе arXiv, общедоступными в машиночитаемом формате».

Kaggle - это место для специалистов по данным и инженеров по машинному обучению, которым нужны интересные наборы данных, общедоступные блокноты и соревнования. Исследователи могут использовать обширные инструменты исследования данных Kaggle и легко делиться своими соответствующими сценариями и результатами с другими.

«ArXiv - это больше, чем хранилище статей, это платформа для обмена знаниями», - сказал Пресани. «Это требует постоянных инноваций в том, как мы представляем и интерпретируем знания, которые мы делаем доступными. Пользователи Kaggle могут помочь раздвинуть границы этого нововведения, и это может стать новым выходом для нашего сообщества для сотрудничества ».

«При больших наборах данных, как правило, ожидается, что открытия, связи, инновационные инструменты или перспективы будут упущены из виду, что может привести к дополнительному пониманию не только в исходной теме, но и в других областях исследования, что позволит еще больше открытий и инноваций », - сказал Стейнн Сигурдссон, научный директор arXiv.

Призыв к действию

Мы надеемся расширить возможности новых вариантов использования, которые могут привести к исследованию более богатых методов машинного обучения, сочетающих мультимодальные функции с такими приложениями, как анализ тенденций, бумажные рекомендательные механизмы, прогнозирование категорий, сети совместного цитирования, построение графов знаний и интерфейсы семантического поиска. .

Примером такого приложения для семантического поиска, построенного на основе конкретного корпуса, может быть Исследователь Google COVID-19 Research Explorer, инструмент, который помогает исследователям изучать набор данных CORD-19 - хранилище более 190 000 научных статей о COVID. -19. Интерфейсы, построенные на таких наборах данных, как этот, используют передовые методы NLU для понимания намерений пользователя, стоящих за запросом. В конечном итоге это может сделать исследования более эффективными, поскольку соответствующие данные и доказательства позволяют решать сложные научные вопросы. Мы надеемся, что выпуск машиночитаемого набора данных arXiv вдохновит на создание подобных инструментов NLU в этом новом корпусе.

Алекс Алеми, старший научный сотрудник Google, также занимался более интересными приложениями машинного обучения с использованием arXiv. Как описано в статье Использование arXiv в качестве набора данных, Алекс и его коллеги стремились продвинуть arXiv в качестве эталона для крупномасштабных задач, связанных с множеством отношений, например, с нейронными графами. сети. Я рад видеть, что исследовательское сообщество решает задачу создания богатого, многогранного набора данных с такой реальной практичностью и новых вопросов, которые это вызовет, - говорит Алекс.

Доступ

Набор данных теперь доступен на Kaggle и будет обновляться еженедельно. Отправьте нам свой отзыв и следите за обновлениями!

Благодарности

Особая благодарность Полю Гинспаргу, известному физику и провидцу, стоящему за arXiv, и Джеку Хидари из X, The Moonshot Factory, которые работали над осуществлением этого сотрудничества.

Этот набор данных был бы невозможен без полезного вклада многих людей. Выражаем признательность (в алфавитном порядке фамилий): Алексу Алеми, Тимо Бозсолику, Элисон Фромме, Пейджен Линь, Брайану Мальцану, Элеоноре Пресани, Штейн Сигурдссон и Джо Трико.