AI Distillery (Часть 1): взгляд на исследования ИИ с высоты птичьего полета

Различные линзы для просмотра через AI; мотивация и знакомство с нашим веб-приложением

В MTank мы работаем над двумя целями. (1) Моделируйте и воплощайте знания в ИИ. (2) Продвигайтесь к созданию действительно интеллектуальных машин. В рамках этих усилий мы выпускаем статьи о нашей работе, чтобы люди могли получать от них удовольствие и учиться. Если вам нравится наша работа, то, пожалуйста, продемонстрируйте свою поддержку, подписавшись, делясь и хлопая по заднице. Заранее спасибо!

Что это такое и зачем вы это сделали?

Добро пожаловать в нашу первую часть AI Distillery Project, где наша команда MTank, разочарованная объемом исследований в области искусственного интеллекта во всем мире, пытается взломать решение для нашей куча непрочитанных бумаг, растущая ежедневно. В нашем предыдущем блоге о видении мы шутливо и точно описали объем глобальных публикаций по исследованиям в области ИИ как огненный шланг - невероятно большого объема, но не позволяющий должным образом утолить жажду. Поэтому мы решили попробовать свои силы в aquaduct-ing, чтобы получить новые знания об ИИ и различных связанных областях.

Почему ты спрашиваешь? Ну, во-первых, мы подумали, что это интересная проблема. Во-вторых, мы слышали (и сопоставляли) мучительные вопли исследователей, обезумевших от своей неспособности идти в ногу с прогрессом, даже в самых эзотерических подполях ИИ. Часто исследователь должен разделить свое время между чтением, кодированием, администрированием, обучением и т. Д. время, пока они готовятся к своей подаче.

В значительной степени научные знания распространяются в одном основном формате: научные статьи. В последнее время общедоступные онлайн-репозитории, которые позволяют цитировать, такие как ArXiv, стали широко распространенным методом быстрой публикации научного контента (см. Твит Яна ЛеКуна). Документы по-прежнему имеют первостепенное значение с точки зрения того, как мы передаем знания в рамках науки, парадигма, которая еще не претерпела значительных изменений. Эти статьи публикуются в журналах и на конференциях или становятся популярными только в социальных сетях. В настоящее время ArXiv - это то место, где большинство крупнейших статей в области ИИ появляются задолго до рецензирования.

Одним предложением наша цель:
Автоматическое моделирование и обобщение знаний в рамках ИИ

Это большая, расплывчатая цель, идеально подходящая для той работы, которую мы хотели бы выполнить в течение следующих нескольких лет. Он, конечно же, включает работу, которую мы проделали вручную в наших предыдущих двух публикациях обзора: Год компьютерного зрения и Мультимодальные методы. Публикации, которые во время написания заставляли нас изо всех сил пытаться добавить в эти подполя лучшие и самые последние современные статьи, пока мы не осознали, насколько это бесполезно.

Надвигающийся монстр ИИ-прогресса неумолимо продвигается вперед, поскольку мы отчаянно пытались переварить, количественно оценить и написать о его приключениях. Однако цель AI Distillery состоит в том, чтобы расширить наш подход и подойти к исследованиям с другой стороны - мы обратим ваше внимание на слово автоматически.

Может быть, пора применить ИИ к ИИ и автоматизировать сбор и обобщение знаний в этой области? Мы знаем, что есть много замечательных ресурсов, посвященных исследованиям ИИ, например, distill.pub, но процесс компиляции, редактирования и создания таких ресурсов занимает очень много времени. Есть ли другой способ почти пассивно получать идеи?

Область сетевой науки полностью посвящена изучению и поиску взаимосвязей в крупных сетях цитирования. Arxiv-sanity, одно из наших самых больших вдохновений, очень помогает людям, наконец, искать документы, которые они ищут, или рекомендовать документы, которые могут им понравиться. Это проверка на возможность поиска и автоматизацию.

Но нас интересует игра в мета-исследования - что само наше исследование может сказать об исследованиях искусственного интеллекта? Куда движется весь этот университетский пыл, стартап и индустрия? Какие области сотрудничают больше всего? Что сейчас популярно, а что скоро станет популярным с точки зрения исследований?

Мы еще не знаем, но следим, и, может быть, мы узнаем вместе.

Проблема с точки зрения поиска информации (IR)

В разных ситуациях требуются разные методы получения информации. Проведение исследовательского поиска затруднено в стандартных IR-системах, поскольку терминология может отличаться даже в тесно связанных областях (сетевой анализ или графовые нейронные сети). Как найти похожие фразы, не зная, что вы ищете? Как найти документы, связанные с вашей новой идеей, в лесу статей GAN?

Современная обработка естественного языка предоставила инструменты для проведения этих типов исследовательского поиска, нам просто нужно применить их к данным из ценных источников, таких как ArXiv. В результате мы стремимся предоставлять наиболее актуальную и значимую информацию как можно быстрее и точнее. Таким образом, исследователи и практики будут освобождены от громоздкой «инженерии запросов» для поиска нужной информации из большого пула документов.

Создание набора данных

В качестве отправной точки для нашей благородной цели мы использовали базу кода arxiv-sanity (созданную Андреем Карпати), чтобы собрать ~ 50 000 статей из ArXiv API, выпущенного с 2014 года и относящихся к области cs. [CV | CL | LG | AI | NE] или stat.ML. Престижность обеих этих систем, поскольку такие невероятные ресурсы с открытым исходным кодом подводят нас к точке, в которой каждый может получить доступ к этим знаниям. Однако в результате возник по крайней мере один небольшой внешний эффект:

Как найти то, что нам нужно, если так много [черт побери] документов?

Что ж, возможно, есть способ визуализировать документы, старые и новые, в контексте исследования вокруг них. То есть не только само подполе, но и различные гнезда, в которых оно обитает. Исследование становится проще, открытиям и навигации помогают, что необычно значительно, если вы сначала знаете, где в пространстве документов и знаний вы находитесь и что вас окружает.

Очистка текстового корпуса

~ 50000 статей были разбиты с использованием pdf2text. Мы удалили стоп-слова (например, «a», «the», «of») и токены, которые появляются меньше порогового количества раз (например, 5 или 30 - разные для каждого метода). Обычные биграммы («deep_learning») и триграммы («convolutional_neural_networks») - это то, для чего мы хотели бы изучить встраивание, но при создании n-граммов возникает проблема из-за комбинаторного взрыва.

Проще говоря, мы хотели бы избежать изучения вложений для биграмм, таких как «and_the» и «this_paper», которых тысячи. Потому что, что еще проще, они не представляют ценности в контексте исследований искусственного интеллекта. Они представляют собой разговорный язык газет в целом.

Вместо этого мы вручную определили важный набор концепций из более широкого набора наиболее распространенных n-граммов - «рекуррентные нейронные сети», «опорная векторная машина» и т. Д. В качестве первого подхода мы находим эти концепции в тексте и заменяем их с концептуальными токенами (convolutional_neural_networks, support_vector_machine).

AI Distillery: веб-приложение для изучения ИИ

Мы создали веб-приложение, доступное через ai-distillery.io, где мы будем показывать большинство наших результатов, инструментов, виджетов, аналитических данных, диаграмм и многого другого. С помощью веб-приложения можно изучить некоторые из наших обученных моделей на наборах данных, которые мы собрали, а также позволить любому исследовать связанные концепции, найти похожие документы или получить обзор каждой из них вместе с тенденциями и отслеживать их прогресс с течением времени. Всего в настоящее время доступно 6 страниц, и мы планируем значительно обновить их в ближайшие месяцы. Эти:

Paper Search: функциональность аналогична arxiv-sanity-preserver, но мы используем библиотеку поиска Whoosh для большей гибкости и масштабируемости. Бросьте запрос и найдите статьи, наиболее соответствующие этому запросу.

Близость встраивания слов: найдите семантически похожие слова, например «CNN» близок к «convnet», а «RNN» близок к «LSTM».

Близость к встраиванию бумаги: найдите похожие бумаги, например Статья «AlexNet» может быть близка к статье «GoogLeNet» или, в более общем плане, статьи в одной и той же области будут ближе, чем статьи из разных областей.

Визуализация встраивания слов: двухмерная диаграмма T-SNE, показывающая, какие слова близки друг к другу в пространстве для встраивания, с помощью методов встраивания слов: Word2vec и fastText.

Визуализация встраивания бумаги: еще одна диаграмма T-SNE, но для визуализации самого места вложения бумаги и с двумя выбранными нами методами встраивания - LSA и doc2vec.

Диаграммы и дополнительная информация. Диаграммы и аналитические данные, которые нам интересны и которые мы создали во время нашего путешествия, например ведущие авторы, ведущие статьи, количество статей, выпускаемых в месяц, и т. д.

Обзор

Мы используем наше лучшее оружие, чтобы приручить зверя прогресса ИИ, то есть Flask, ReactJS, D3.js, ChartJS и Whoosh. Мы весело провели время, перейдя с Heroku (слишком мало ОЗУ) на Google Compute Engine (слишком дорого для слишком маленького ОЗУ), прежде чем, наконец, разместить текущую версию приложения с Hetzner.

Мы начали AI Distillery с двух методов бумажного встраивания, скрытого семантического анализа (LSA) и doc2vec, и двух алгоритмов встраивания слов, word2vec и fastText. В нашей следующей статье мы познакомим читателей с этими встраиваемыми версиями, а также с каждой из созданных страниц. А пока не стесняйтесь исследовать сайт (ai-distillery.io). Вы можете найти наш экспериментальный код в репозитории AI Distillery GitHub, где мы использовали такие фреймворки, как gensim, sklearn и spacy, чтобы сделать некоторые из вышеперечисленных.

Как всегда, спасибо, что нашли время прочитать нашу работу. И, пожалуйста, аплодируйте и делитесь работой MTank со всеми, кому, по вашему мнению, она может понравиться. Ваша поддержка поддерживает у всех нас мотивацию пробовать что-то новое и вносить свои два цента в сообщество ИИ. Так что в этом случае не сдерживайте аплодисментов, если вам нравится то, что мы делаем!

Если вы хотите сотрудничать с нами в нашем безумном путешествии по повышению прозрачности прогресса ИИ или хотите получить какие-либо комментарии по любой части нашего исследования или веб-приложения, мы открыты для предложений, поэтому не стесняйтесь обращаться в раздел комментариев или по электронной почте ([email protected]). Следите за Частью 2 этой серии, которая скоро выйдет, и началом новой серии блогов, о которых мы упоминали в нашем блоге о видении (От кубков к сознанию).