В последние несколько месяцев внимание всего мира (или, по крайней мере, мира технологий) было приковано к моделям генеративного ИИ (и конкретно к LLM). Наши сообщества GDE и Cloud Camption не являются исключением: мы экспериментируем с новыми моделями искусственного интеллекта GCP Vertex и готовимся поделиться подробностями. Мне даже кажется, что в последнее время я проводил больше времени с Vertex AI, чем с моей любимой частью GCP — BigQuery. Список замечательных тем BigQuery, которые мне нужно осветить (включая такие интересные вещи, как отказоустойчивость, путешествия во времени, безопасные операции, клоны и многое другое) смотрят на меня со страницы моего блокнота как молчаливое тому подтверждение.
Именно поэтому сегодняшней новостью стоит поделиться! Модель Text-bison (LLM) от Vertex AI теперь доступна напрямую в BigQuery через SQL (ссылка).
Давайте вспомним, что раньше было в BigQuery в связи с ML. Поскольку это не был запланированный пост, это будет просто краткий обзор.
Обученные модели BigQuery ML
Во-первых, в BigQuery есть множество встроенных моделей для таких рабочих процессов, как регрессия, классификация, кластеризация, совместная фильтрация, уменьшение размерности и прогнозирование временных рядов.
У вас есть следующие модели, встроенные в BigQuery:
Контролируемое обучение
- Линейная и логистическая регрессия
- Увеличенные деревья
- Случайный лес
- Глубокие нейронные сети
- Широкий и глубокий
- AutoML-таблицы
Обучение без учителя
Особые случаи
- Прогноз временного ряда
- Обнаружение аномалий
- "Рекомендация"
Примечание. Почему прогнозирование временных рядов, обнаружение аномалий и рекомендации являются особыми случаями? В том виде, в котором они сейчас построены в BigQuery, вам потребуется использовать специальные функции ML.PROCAST, ML.DETECT_ANOMALIES и ML.RECOMMEND соответственно вместо стандартной для другой модели ML.PREDICT.
Если для вашего варианта использования требуется одна из этих моделей, то только с помощью операторов SQL и не выходя из консоли BigQuery вы можете обучить свою модель, а затем получать на ее основе выводы в реальном времени.
Импортированные модели BigQuery
Если встроенные модели BigQuery или API-интерфейсы Vertex AI не подходят для вашего варианта использования, можно использовать импортированные модели. В этом случае вам потребуется обучить модель вне BigQuery, а затем импортировать обученную модель в BigQuery. После этого внутри BigQuery вы сможете использовать свою модель в операторах SQL для логического вывода.
BigQuery ML поддерживает следующие типы импортируемых моделей:
- Open Neural Network Exchange (ONNX) для моделей, обученных PyTorch, scikit-learn и другим популярным фреймворкам машинного обучения.
- ТензорФлоу
- ТензорФлоу Лайт
- XGBoost
Удаленные модели BigQuery
Но что, если ваша модель была обучена и развернута с помощью Vertex AI. Поскольку оба продукта являются частью GCP, кажется излишним экспортировать эту модель из Vertex AI и импортировать ее в BigQuery (и не забывайте, что если ваша модель будет переобучена позже — вам нужно будет обновить ее в BigQuery). Скорее всего, вам и не нужно этого делать…
Вы можете получить доступ к развернутым моделям Vertex AI внутри BigQuery, используя удаленные модели. Это также отличный вариант, если вы хотите использовать аппаратное обеспечение графического процессора для своей модели (которое доступно в Vertex AI) и если вам вообще нужен больший контроль над вашей моделью.
Мы уже рассмотрели все варианты? Еще нет…
Модели на основе Vertex AI API
Как вы знаете, Vertex AI — это своего рода зонтик над несколькими сервисами. Да, это сервисы для обучения и развертывания любой из ваших пользовательских моделей. Но есть также стандартные API для вариантов использования, близких и дорогих Google, в том числе:
- Облачный API естественного языка
- API облачного перевода
- API облачного зрения
Под этими API скрываются сложные модели, которые Google обучил с использованием большого количества данных и предоставил нам в виде API. Доступ к этим API можно получить непосредственно в BigQuery с помощью удаленных моделей и специальных функций:
После этого мы готовы к последнему дополнению к этому семейству — генеративному ИИ.
Генеративный ИИ
Теперь в список добавлена базовая модель естественного языка текстового зубра Vertex AI. Вы можете использовать его непосредственно внутри BigQuery в следующих случаях:
- Классификация
- Анализ настроений
- Извлечение сущности
- Экстрактивный ответ на вопрос
- Подведение итогов
- Переписывание текста в другом стиле
- Создание копии объявления
- Идея концепции
После создания модели (аналогичный процесс создания удаленных моделей для моделей на основе Vertex AI API) вы можете использовать специальную функцию ML.GENERATE_TEXT для выполнения генеративных задач на естественном языке над текстовыми данными, хранящимися в таблицах BigQuery.
Для начала доступны два руководства: использование общедоступного набора данных и ваших собственных данных.
Примечание. Эта функция все еще находится в стадии предварительной версии и требует регистрации. Также неясно, можно ли будет позже использовать доработанные модели. Но это отличный шаг!