Создание базы данных для LLM

LlamaIndex привлекает посевной раунд на $8,5 млн под руководством Greylock Partners

Сегодня волнующий день для LlamaIndex и важная веха в моем личном путешествии с генеративным ИИ. Я следовал генеративным моделям на протяжении большей части своей академической/профессиональной карьеры — от моих исследований по GAN/сжатию датчиков до следования разработкам Трансформеров/GPT. Становилось все более очевидным, что по мере того, как эти модели становились больше/лучше, они превращались из генераторов знаний в интеллектуальные механизмы, которые могли рассуждать/действовать на основе новой информации.

Я формализовал некоторые из этих ключевых интуиций более конкретно:

LLM — это фантастические механизмы рассуждений, способные отвечать на вопросы, обобщать, планировать и многое другое. У них было обещание стать «нейронным» вычислительным блоком в основе новой эры программного обеспечения с поддержкой ИИ.
Тем не менее, LLM по своей природе ничего не знают о ваших собственных данных.
На самом деле никто не знал лучших практик для ввода ваших данных в LLM. Модели имели ограниченные контекстные окна и требовали больших затрат на точную настройку.

Если бы мы могли предложить набор инструментов, помогающий настроить архитектуру данных для приложений LLM, мы могли бы позволить любому создавать работников умственного труда на основе LLM и изменять способ написания программного обеспечения на основе частных данных. Программное обеспечение с поддержкой LLM требует новых инструментов инфраструктуры для ваших данных и имеет серьезные последствия для современного стека данных программного обеспечения.

Решив решить эту проблему, я создал GPT Index (который мы позже переименовали в LlamaIndex), первоначальную исследовательскую попытку организовать и получить информацию с помощью LLM. (Первый твит здесь!)

Это случилось в идеальное время. С ноября прошлого года наблюдается взрыв интереса разработчиков к созданию приложений на основе LLM. Большинство разработчиков выясняли, как можно использовать логические способности LLM в дополнение к их собственным личным данным. Всего через два месяца я объединил усилия с Саймоном Суо, блестящим технологом в области искусственного интеллекта и моим бывшим коллегой, и мы превратили LlamaIndex из исследовательского проекта в комплексную структуру, предназначенную для связи личных данных пользователя с LLM. Он получил признание в сообществе ИИ, привлекая внимание как хакеров, разработчиков, так и отраслевых экспертов. Всего за шесть месяцев проект собрал впечатляющую аудиторию: 16 тысяч звезд Github, 20 тысяч подписчиков в Twitter, 200 тысяч загрузок в месяц и 6 тысяч активных пользователей Discord. Такие компании, как Instabase, Front и Uber, начали экспериментировать с LlamaIndex поверх своих данных.

Начали появляться некоторые первоначальные стеки — например, общая парадигма для создания систем контроля качества и чат-ботов заключалась в использовании простого механизма поиска (поиск топ-k из векторной базы данных) с LLM. LlamaIndex стал рассматриваться как критическая данная, оркестрация, компонент формирующегося ландшафта программного обеспечения LLM.

Тем не менее, стало ясно, что в области LLM и данных по-прежнему существуют серьезные технические проблемы, и ни у кого нет правильных ответов. Даже с разработанным нами функциональным набором инструментов мы только начинали царапать поверхность, пытаясь извлечь пользу из данных.

Мы рады сообщить, что LlamaIndex получила начальное финансирование в размере 8,5 миллионов долларов США под руководством Грейлока, чтобы способствовать дальнейшему продвижению этих усилий. Мы рады работать с Джерри Ченом, Саамом Мотамеди и Джейсоном Ришем в команде Greylock. В этом захватывающем путешествии к нам присоединяются Джек Альтман (генеральный директор Lattice), Ленни Рачицкий (Lenny’s Newsletter), Матильда Коллин (генеральный директор Front), Ракель Уртасун (генеральный директор Waabi), Джоуи Гонсалес (Berkeley) и многие другие. Их вера в наше видение и влияние LlamaIndex на будущее ИИ подпитывает нашу страсть к решению этих проблем данных + ИИ.

Почему LlamaIndex?

Вызвать LLM API очень просто. Настроить программную систему, которая может извлекать информацию из ваших личных данных, сложнее.

LlamaIndex — это расширенная структура данных для ваших приложений LLM. Он включает в себя основные функции, позволяющие вам как управлять данными, так и запрашивать их.

Управление данными:прием данных, анализ/нарезка данных, хранение/индексирование данных.
Запрос данных: поиск данных, синтез ответов, многоэтапное взаимодействие с вашими данными.

LlamaIndex позволяет легко интегрировать индивидуальные или корпоративные данные, включая файлы, рабочие приложения и базы данных, с приложениями LLM. Мы также предлагаем широкий спектр интеграций с другими поставщиками хранилищ и последующими приложениями.

100+ загрузчиков данных
13+ поставщиков векторных баз данных
Интеграция с системами наблюдения и экспериментов (например, оперативное отслеживание и отслеживание системы)
Интеграция как ChatGPT Retrieval Plugin или с Poe

Конечным результатом является то, что вы можете создавать множество удивительных приложений LLM, требующих больших объемов знаний. Это варьируется от поисковой системы по вашим данным до интерфейсов в стиле чат-ботов, помощников по структурированной аналитике и автономных агентов знаний.

Что дальше?

Мы хотим так много сделать, чтобы полнее реализовать наше видение раскрытия возможностей LLM поверх ваших данных. В целом мы разделим это на две категории: 1) наша неизменная приверженность сообществу разработчиков открытого исходного кода и 2) масштабное решение проблемы данных для предприятий.

Создайте лучшую платформу данных с открытым исходным кодом и сообщество разработчиков

На высоком уровне мы хотим продолжить работу над возможностями наших основных функций, повышая надежность и удовлетворяя потребности как начинающих, так и опытных пользователей.

Обработка сложных запросов. Мы хотим продолжать продвигать идею «запрашивать ваши данные», будь то за счет использования взаимодействия в стиле агента для извлечения и синтеза данных или синтеза программ/DSL.
Мультимодальное управление данными. Будущее базовых моделей — многомодальное, а не только LLM. Существует много типов полуструктурированных данных (например, полуструктурированные данные, такие как JSON, файлы yaml), а также «сложные» неструктурированные данные (аудио, изображения, видео), для которых мы хотели бы иметь встроенную поддержку.
Улучшенная оценка систем данных LLM:Правильная оценка вызовов LLM уже непростая задача (как лучше всего оценить качество сгенерированного вывода? Некоторые библиотеки для этого). Это становится еще более сложным, когда вы связываете вызовы LLM в общей системе данных. Мы хотим приложить усилия в этой области, чтобы обеспечить большую прозрачность для наших пользователей.
Оптимизация задержки/затрат. Пользователи сталкиваются с множеством вариантов, когда дело доходит до создания приложения LLM, управляемого данными: выбор модели LLM, модели внедрения, векторной базы данных и т. д. Они должны выбрать в соответствии с различными факторами, от задержки и стоимости до конфиденциальности.
Простота использования как для начинающих, так и для опытных пользователей. Наша цель — сделать использование возможностей LLM доступным и удобным для пользователей с любым уровнем квалификации. Мы разработаем четкие учебные пособия, примеры и инструменты, чтобы упростить процесс обучения и передать ценность всех наших функций.

Решение проблемы с данными в масштабе предприятия

Поскольку мы повторяем проект с открытым исходным кодом, мы также хотим определить окружающие болевые точки в возможности создавать и развертывать приложения LLM на основе данных в рабочей среде. Наше решение этой проблемы будет основано на успехе нашего проекта с открытым исходным кодом и станет естественным развитием корпоративной среды.

Прием и управление данными, готовыми к работе. Мы хотим обрабатывать обновления данных, согласованность данных и масштабируемость для анализа больших объемов данных. Мы также хотим продолжить расширение правильных абстракций хранения для мультимодальных данных.
Масштабирование до больших объемов данных. Предприятия обычно имеют на несколько порядков больше данных, чем отдельные лица. Мы хотим инвестировать в размещенную инфраструктуру/решения для развертывания вокруг нашего основного пакета, чтобы вам не пришлось этого делать.
Решения LLM для конкретной области. Мы хотим предложить комплексные решения, позволяющие пользователям легко создавать приложения LLM в различных областях, от здравоохранения до финансов и права.

Если вы создаете приложения LLM для предприятия, мы будем рады пообщаться и узнать больше о болевых точках и желаемых функциях! Ознакомьтесь с нашей формой здесь.

Присоединяйтесь к банде лам! 🦙

Присоединяйтесь к банде Llama(Index), поскольку мы отправляемся в это путешествие, чтобы решать проблемы на стыке LLM и данных. Мы не просто создаем инструменты для практиков/исследователей машинного обучения; новые стеки архитектуры LLM + данных влияют на все разработки программного обеспечения. В результате мы работаем на пересечении невероятно интересных и сложных проблем из самых разных областей:

Разработка базовой модели
Информационно-поисковые + рекомендательные системы
Системы данных
млн операций в секунду
DevOps

Заинтересованы в проверке проекта?

Найдите наш проект на Github и ознакомьтесь с нашей Документацией
Посетите нашу новую целевую страницу: https://llamaindex.ai
Присоединяйтесь к нашему Discord или подписывайтесь на наш Twitter

Кроме того, мы набираем!

Мы ищем инженеров-основателей — желательно иметь опыт работы с одним или несколькими ИИ, системами данных и полным стеком/интерфейсом, но не обязательно.
Если вы заинтересованы, заполните нашу форму здесь.