Как автоматически векторизовать содержимое и создавать механизмы, подобные LangChain, для эффективного запроса корпуса документов

Лихорадка GPT

Все технически подкованные люди по всему миру уже некоторое время играют с ChatGPT…

  • Многие из них использовали его как очень умную базу знаний 🔎,
  • Некоторые исследовали «Искусство подсказок» (или «Подсказку»), чтобы получить более релевантные результаты, иногда используя свои собственные данные 🤖,
  • Но лишь немногие пошли дальше и использовали такие решения, как LangChain, для построения сложных рабочих процессов и создания реальных приложений 📚.

И это правда, что освоение таких концепций, как «встраивание» или «векторное хранилище», в сочетании с требованиями программирования может показаться многим сложным и помешать им фактически раскрыть мощь LLM.

Вот тут-то и приходит на помощь Быстрый поток!

Давайте узнаем, как в Azure теперь возможно создание мощного инструмента вопросов и ответов с минимальным кодом!

Предпосылки

Я предполагаю, что у вас есть необходимые права для создания ресурсов, необходимых для этого руководства, наиболее важным из которых является наличие «Рабочего пространства Azure Machine Learning Studio».

Функция Prompt Flow, а также Каталог моделей (позволяющий развертывать LLM, созданные Azure, Hugging Face, Meta и т. д.), в настоящее время в частном или общедоступном предварительном просмотре, поэтому вам придется присоединиться к списку ожидания, прежде чем вы сможете активировать и использовать его.

Построение векторного индекса

Понимание вложений

Чтобы эффективно обрабатывать большой корпус и преодолеть ограничение токенов текущих моделей, вам необходимо разбить каждый документ на части (например, каждую страницу) и преобразовать…