График, содержащий структурированные знания из более чем 120 статей по математике и науке о данных.

В этой статье я покажу, как можно структурировать и исследовать содержание собственных статей, используя графовые технологии и немного программирования.

Идея использования методов НЛП для структурирования неструктурированных данных не нова, однако последние достижения в области LLM (больших языковых моделей) открыли бесчисленные возможности для этого. Доступность для любителей благодаря быстро развивающейся технологии Chat-GPT привлекла большое внимание к LLM и моделям генераторов.

Фактически, генеративный искусственный интеллект уже стоит на повестке дня во многих компаниях!

В этой статье мы будем работать с технологией через язык программирования Python с использованием API разработчика OpenAI. Мы будем работать с данными из Medium (мета, да?) и строить график знаний. Это может показаться громоздким, но на самом деле начать с этого удивительно легко.

Начиная

Перво-наперво. План нападения следующий.

  1. Заставьте API работать и получите к нему доступ через Python.
  2. Используйте образец текста, чтобы быстро выполнить проектирование и убедиться, что модель GPT-4 понимает, чего вы от нее хотите.
  3. Загрузите свои статьи со Medium (конечно, вы можете использовать и другие фрагменты текста, если хотите) и предварительно обработайте данные.
  4. Извлеките и соберите выходные данные Chat-GPT.
  5. Постобработка вывода Chat-GPT.
  6. Напишите код для дальнейшего структурирования данных в граф, используя язык запросов Cypher.
  7. Поиграйте со своим новым лучшим другом и изучите ваши статьи.

Без лишних слов, давайте начнем с быстрой настройки базовой технологии.

Настраивать

Нам необходимо, чтобы на нашем локальном компьютере были установлены язык программирования Python и графовая база данных Neo4j.

Первое, что нужно сделать, это убедиться, что у вас есть учетная запись Plus в OpenAI, чтобы вы могли использовать GPT-4. …