Научитесь использовать сценарий, предоставленный AutoML docs, для преобразования текстовых файлов в формат jsonl.

Если вы начали с чего-либо, связанного с AutoML NLP на GCP, вы уже знаете первый шаг. Преобразуйте свои документы в формат .jsonl, прежде чем передавать их в качестве обучающих данных. Документация AutoML уже предоставляет вам скрипт Python, но если вы обнаружили, что скрипт немного сложен для понимания или использования, вы не одиноки!

Когда я просматривал документацию, мне хотелось, чтобы не было пошагового руководства по использованию скрипта python, так что вот оно.

Что такое AutoML?

AutoML - один из строительных блоков искусственного интеллекта на облачной платформе Google. Это особенно полезно, если вы хотите создавать и обучать собственные высококачественные модели и у вас ограниченный опыт машинного обучения для этого. Он предоставляет интерфейс, который поможет вам перенести данные в алгоритм для построения вашей модели. Он автоматически выбирает лучшую архитектуру нейронной сети и настраивает гиперпараметры для вас в зависимости от вашей цели, в основном экономя ручные усилия на повторном обучении и тонкой настройке.

Итак, шаг 1 - Загрузите свои данные!

Я не буду описывать все этапы процесса создания и обучения модели на AutoML, так как вы можете найти их очень хорошо задокументированные здесь. Наше внимание сосредоточено на задаче, вызывающей небольшое трение.

Убедитесь, что размер ваших PDF-файлов статью, в которой объясняется, как можно извлекать текстовые данные из изображений в PDF-файлах с помощью API облачного видения и, конечно же, Python.

Преобразование PDF-файлов в JSONL - в оболочке gCloud

Этот сценарий можно запустить в оболочке командной строки gCloud или, если вы установили gCloud SDK, вы можете запустить сценарий прямо со своего компьютера и преобразовать PDF-файлы, хранящиеся в бакетах GCS, в файлы jsonl. Он написан на Python2 и принимает три аргумента - имя файла сценария, путь к файлам PDF и путь к целевому сегменту.

python2 <script> gs://<path_to_src_pdf> gs://<dest_bucket>/

  1. Загрузите сценарий (input_helper_v2.py) и исходный файл PDF (далее src.pdf) в корзину GCS. Обратите внимание на пути этих двух документов.
  2. Установите python2 в облачную оболочку. sudo apt install python2
  3. Создайте корзину GCS в регионе (us-central1) и установите для класса хранения standard. Для обработки AutoML регион должен быть us-central1. (Данные на 21 сентября)
  4. Скопируйте скрипт, хранящийся в вашей корзине GCS, в домашний каталог облачной оболочки. gsutil -m cp gs://<path_to_script>
  5. Шаг 4 заключался в загрузке сценария в домашний каталог виртуальной машины с облачной оболочкой. Запустите ls, чтобы убедиться, что сценарий успешно скопирован.
  6. В облачной оболочке запустите python2 input_helper_v2.py gs://<path_to_src_pdf> gs://<path_to_gcs_bucket>/

Если вы хотите конвертировать несколько файлов одновременно, вы можете использовать *.extension вместо одного имени файла. Пример — *.pdf

Набор данных CSV с URI файла jsonl (который вы можете напрямую использовать для импорта данных обучения) и файл jsonl были созданы и сохранены в указанном вами целевом сегменте GCS. Перейдите в docs (импорт данных обучения в консоль autoMl) и продолжайте создавать свою собственную модель!