Добро пожаловать!

В этом посте анализируется то, что авторы и организации публикуют на NeurIPS 2020 в декабре этого года, аналогично анализу, который я провел для ICML 2020.

Статьи доступны здесь. Код доступен здесь.

Заявление об ограничении ответственности: Как и прежде, такой анализ подвержен незначительным ошибкам из-за того, как люди пишут свои имена и принадлежность в CMT. Так что этот анализ полезен для получения общей информации, а не для определения точных цифр❕

Хорошо, пойдем.

Общая статистика

Всего было подано 9454 заявки, из которых было принято 1900 статей, что составляет 20% прием.

Количество заявок продолжает расти в геометрической прогрессии на 40% в годовом исчислении. При такой скорости в 2025 году у нас может быть 50 000 заявок (удачи рецензентам 😜).

Несмотря на растущее количество представлений, процент принятия остается подозрительно постоянным.

Организации

Подобно ICML 2020, Google, Стэнфорд и Массачусетский технологический институт сохраняют свой статус большинства издательских организаций.

Интересно, что в топ-10 сейчас три неамериканских организации: впервые Университет Цинхуа из Китая (7 место), DeepMind (9 место) и Оксфордский университет (место).

На рисунке выше я увеличиваю счет для каждой организации на единицу, если эта организация участвовала в написании статьи. Другой способ подсчитать количество статей C - это учесть количество авторов в статье N и увеличить C на 1 / N. Это то, что я называю нормализованным количеством статей.

Хотя нормализованная оценка ниже исходной (из-за сотрудничества с другими организациями), относительный рейтинг для ведущих организаций остается почти таким же.

Авторы

Если для ICML 2020 было 9 авторов с 7+ статьями, то для NeurIPS 2020 это число поражает 28 авторов 😲.

Подобно диаграмме для организаций, мы можем нормализовать количество статей каждого автора по количеству авторов в его статьях.

Нормализованное количество статей уменьшилось в 3-4 раза по сравнению с исходным числом, что означает, что у ведущих авторов в среднем 3-4 автора на статью.

Чтобы проверить, является ли это обычной ситуацией для NeurIPS, я сравнил среднее количество статей для топ-N авторов за 2017–2020 годы, то есть я вычислил набор всех статей, опубликованных топ-N авторами, и разделил его на N .

Количество статей, публикуемых топ-10 авторами каждого года, удвоилось за 4 года, в среднем с 4,6 статей в 2017 году до 8,3 статей в 2020 году.

Это означает, что наиболее плодовитые авторы теперь публикуют в два раза больше, и это число со временем растет и для большего числа N, даже если мы рассматриваем первых 1000 авторов. Однако, если рассматривать всех авторов, тенденция немного снижается, а это означает, что в 2020 году будет больше статей с большим количеством соавторов, которые публикуют только одну статью 📉.

Мы можем дополнительно взглянуть на некоторые известные имена, чтобы увидеть, как они увеличивали свою публикацию за последние четыре года.

Основным драйвером для этого объема статей является сотрудничество с большим количеством авторов. Например, у Сергея Левина в 2020 году 35 соавторов из 8 филиалов.

Сотрудничество

Чтобы увидеть, насколько разные организации сотрудничают друг с другом, я подсчитываю, сколько статей было написано благодаря сотрудничеству внутри одной организации, то есть я делю нормализованное количество публикаций на общее количество публикаций. Если это число равно единице, это означает, что все бумаги написаны исключительно сотрудниками этой организации.

Объем внутреннего сотрудничества для ведущих организаций сильно различается: от 74% для KAIST (в каждой статье KAIST примерно 3 из 4 авторов из KAIST) до 41% для Microsoft.

Мы можем расширить список сотрудничества для конкретных организаций.

Примечательно, что Google не публикует свои статьи с другими промышленными компаниями (кроме DeepMind), в то время как MIT сотрудничает как с промышленными, так и с академическими кругами по всему миру 🌐.

Затем интересно взглянуть на глобальный график сотрудничества. Поскольку существует ~ 900 организаций, отображающих их все, это будет гигантский беспорядок, но мы можем построить подграф, включающий только филиалы с наибольшим количеством совместных работ.

Этот подграф является связным компонентом, размер узла которого равен количеству документов организации, а толщина края равна количеству сотрудничества между двумя организациями.

Точно так же мы можем сделать то же самое для авторов.

Некоторые авторы в этом подграфе представляют собой просто изолированные вершины, что означает, что они не сотрудничают с другими ведущими сотрудничающими авторами, которые появились в этом подграфе.

Две основные характеристики таких сетей - это размер наибольшего связного компонента и диаметр графа (наибольший кратчайший путь между двумя вершинами). Давайте посмотрим на них 👁‍🗨.

Подводя итоги, узлы соответствуют авторам и принадлежностям. Итак, на NeurIPS 2020 907 разных организаций (красные) и ~ 6 тысяч разных авторов (синие).

Графы авторов и принадлежности очень сильно различаются по структуре. На графике аффилированности есть огромный самый большой компонент, который охватывает большинство привязанностей (85% графика) и имеет достаточно маленький диаметр (8 переходов).

В графе Автор самый большой компонент покрывает менее 50% узлов, и есть много маленьких островов 🏝 из ~ 50 узлов, связанных друг с другом, но не с остальной частью сети. Причем диаметр в наибольшем компоненте графа Автор равен 25, что выше закона шести степеней разделения 🤝. Это означает, что как исследовательское сообщество мы все еще очень разобщены.

Страны

А теперь посмотрим на показатели разных стран 🌎. Я использую отображение названия организации на страну штаб-квартиры этой организации. Хотя это сопоставление может относить отдельные статьи к неправильной стране, аналогично анализу ICML 2020 глобальные идеи должны быть очень близки к реальности (из-за того, что университеты связаны с одной страной, и университеты публикуют гораздо больше, чем компании. ).

Неудивительно, что США снова оказались на вершине, участвуя более чем в половине газет. Китай опережает Великобританию и выходит на второе место. Остальному миру еще предстоит наверстать упущенное.

Увеличивая масштаб по отдельным странам, мы можем увидеть ранжированный список организаций (3+ статьи).

За исключением США и Китая (у которых несколько компаний возглавляют список), основным источником публикаций для других стран по-прежнему являются академические учреждения и университеты.

Заключение

NeurIPS 2020 устанавливает новый рекорд 🍾 по количеству поданных и принятых работ со всего мира. В этом посте рассказывается о разбивке статей по авторам, организациям и странам. Он также показывает, как изменился уровень публикации за последние годы и как авторы и организации сотрудничают. В будущем было бы интересно провести более тщательное сравнение этой статистики с другими конференциями, такими как ICML, ICLR, AAAI и другими. Тем, кому интересно провести собственный анализ, можно смело взглянуть на кодекс.

Благодарности: спасибо Евгению Желтоножскому за помощь в составлении карты и вычитке сообщения. Спасибо Гаутаму Камату и академическому твиттеру за предложения некоторых анализов. Спасибо Евгении Устиновой за вычитку поста.

P.S. Если вам нравится эта история, подпишитесь на меня в среде или подпишитесь на мой телеграм-канал или мой твиттер.

Больше от сообщества блогов Criteo Tech



Хотите присоединиться к команде?