Научитесь использовать сценарий, предоставленный AutoML docs, для преобразования текстовых файлов в формат jsonl.
Если вы начали с чего-либо, связанного с AutoML NLP на GCP, вы уже знаете первый шаг. Преобразуйте свои документы в формат .jsonl
, прежде чем передавать их в качестве обучающих данных. Документация AutoML уже предоставляет вам скрипт Python, но если вы обнаружили, что скрипт немного сложен для понимания или использования, вы не одиноки!
Когда я просматривал документацию, мне хотелось, чтобы не было пошагового руководства по использованию скрипта python, так что вот оно.
Что такое AutoML?
AutoML - один из строительных блоков искусственного интеллекта на облачной платформе Google. Это особенно полезно, если вы хотите создавать и обучать собственные высококачественные модели и у вас ограниченный опыт машинного обучения для этого. Он предоставляет интерфейс, который поможет вам перенести данные в алгоритм для построения вашей модели. Он автоматически выбирает лучшую архитектуру нейронной сети и настраивает гиперпараметры для вас в зависимости от вашей цели, в основном экономя ручные усилия на повторном обучении и тонкой настройке.
Итак, шаг 1 - Загрузите свои данные!
Я не буду описывать все этапы процесса создания и обучения модели на AutoML, так как вы можете найти их очень хорошо задокументированные здесь. Наше внимание сосредоточено на задаче, вызывающей небольшое трение.
Убедитесь, что размер ваших PDF-файлов статью, в которой объясняется, как можно извлекать текстовые данные из изображений в PDF-файлах с помощью API облачного видения и, конечно же, Python.
Преобразование PDF-файлов в JSONL - в оболочке gCloud
Этот сценарий можно запустить в оболочке командной строки gCloud или, если вы установили gCloud SDK, вы можете запустить сценарий прямо со своего компьютера и преобразовать PDF-файлы, хранящиеся в бакетах GCS, в файлы jsonl. Он написан на Python2 и принимает три аргумента - имя файла сценария, путь к файлам PDF и путь к целевому сегменту.
python2 <script> gs://<path_to_src_pdf> gs://<dest_bucket>/
- Загрузите сценарий (
input_helper_v2.py
) и исходный файл PDF (далееsrc.pdf
) в корзину GCS. Обратите внимание на пути этих двух документов. - Установите python2 в облачную оболочку.
sudo apt install python2
- Создайте корзину GCS в регионе (
us-central1
) и установите для класса храненияstandard
. Для обработки AutoML регион должен бытьus-central1
. (Данные на 21 сентября) - Скопируйте скрипт, хранящийся в вашей корзине GCS, в домашний каталог облачной оболочки.
gsutil -m cp gs://<path_to_script>
- Шаг 4 заключался в загрузке сценария в домашний каталог виртуальной машины с облачной оболочкой. Запустите
ls
, чтобы убедиться, что сценарий успешно скопирован. - В облачной оболочке запустите
python2 input_helper_v2.py gs://<path_to_src_pdf> gs://<path_to_gcs_bucket>/
Если вы хотите конвертировать несколько файлов одновременно, вы можете использовать
*.extension
вместо одного имени файла. Пример —
Набор данных CSV с URI файла jsonl (который вы можете напрямую использовать для импорта данных обучения) и файл jsonl были созданы и сохранены в указанном вами целевом сегменте GCS. Перейдите в docs (импорт данных обучения в консоль autoMl) и продолжайте создавать свою собственную модель!