График, содержащий структурированные знания из более чем 120 статей по математике и науке о данных.
В этой статье я покажу, как можно структурировать и исследовать содержание собственных статей, используя графовые технологии и немного программирования.
Идея использования методов НЛП для структурирования неструктурированных данных не нова, однако последние достижения в области LLM (больших языковых моделей) открыли бесчисленные возможности для этого. Доступность для любителей благодаря быстро развивающейся технологии Chat-GPT привлекла большое внимание к LLM и моделям генераторов.
Фактически, генеративный искусственный интеллект уже стоит на повестке дня во многих компаниях!
В этой статье мы будем работать с технологией через язык программирования Python с использованием API разработчика OpenAI. Мы будем работать с данными из Medium (мета, да?) и строить график знаний. Это может показаться громоздким, но на самом деле начать с этого удивительно легко.
Начиная
Перво-наперво. План нападения следующий.
- Заставьте API работать и получите к нему доступ через Python.
- Используйте образец текста, чтобы быстро выполнить проектирование и убедиться, что модель GPT-4 понимает, чего вы от нее хотите.
- Загрузите свои статьи со Medium (конечно, вы можете использовать и другие фрагменты текста, если хотите) и предварительно обработайте данные.
- Извлеките и соберите выходные данные Chat-GPT.
- Постобработка вывода Chat-GPT.
- Напишите код для дальнейшего структурирования данных в граф, используя язык запросов Cypher.
- Поиграйте со своим новым лучшим другом и изучите ваши статьи.
Без лишних слов, давайте начнем с быстрой настройки базовой технологии.
Настраивать
Нам необходимо, чтобы на нашем локальном компьютере были установлены язык программирования Python и графовая база данных Neo4j.
Первое, что нужно сделать, это убедиться, что у вас есть учетная запись Plus в OpenAI, чтобы вы могли использовать GPT-4. …