Каков требуемый формат данных для скрипта Google AutoML .txt в .jsonl?

Я пытаюсь создать набор данных для задачи распознавания объектов в Google AutoML с их сценарием для преобразования моих файлов .txt в .jsonl и сохранения их в облачном хранилище Google, как описано в это руководство. Данные выглядят так (из их примера - NCBI Disease Corpus):

"10021369   Identification of APC2, a homologue of the <category="Modifier">adenomatous polyposis coli tumour<\/category> suppressor .  "

После загрузки в GCS ярлыки вообще не распознаются. Какой формат данных актуален?


person wqef    schedule 09.12.2020    source источник


Ответы (1)


Я не совсем уверен, должен ли <category="Modifier"> работать, но, насколько мне известно, правильно в Быстрый старт аннотирует следующим образом:

{"annotations": [
{"text_extraction": {"text_segment": {"end_offset": 85, "start_offset": 52}}, "display_name": "Modifier"}, 
{"text_extraction": {"text_segment": {"end_offset": 144, "start_offset": 103}}, "display_name": "Modifier"}, 
{"text_extraction": {"text_segment": {"end_offset": 391, "start_offset": 376}}, "display_name": "Modifier"}, 
{"text_extraction": {"text_segment": {"end_offset": 1008, "start_offset": 993}}, "display_name": "Modifier"}, 
{"text_extraction": {"text_segment": {"end_offset": 1137, "start_offset": 1131}}, "display_name": "SpecificDisease"}], 
"text_snippet": {"content": "10021369\tIdentification of APC2, a homologue of the adenomatous polyposis coli tumour suppressor .\tThe ... APC - / - colon 
carcinoma cells . Human APC2 maps to chromosome 19p13 . 3. APC and APC2 may therefore have comparable functions in development and cancer .\n "}
}

После импорта набора данных в пользовательском интерфейсе AutoML NL вы увидите пять аннотаций, указанных в jsonl:

введите описание изображения здесь

Для получения дополнительной информации о структуре jsonl в приведенном выше примере вы можете взглянуть на образцы файлов в Quickstart:

$ gsutil cat gs://cloud-ml-data/NL-entity/dataset.csv
TRAIN,gs://cloud-ml-data/NL-entity/train.jsonl
TEST,gs://cloud-ml-data/NL-entity/test.jsonl
$ gsutil cat gs://cloud-ml-data/NL-entity/train.jsonl

Если вы используете скрипт python для своих собственных текстовых строк, вы увидите, что он генерирует файл csv (dataset.csv) и файлы jsonl с таким содержимым, как:

{"text_snippet": {"content": "This is a disease\n Second line blah blabh"}, "annotations": []} 

Итак, вам нужно будет указать annotations (используя start_offset и end_offset), чей ручной процесс может быть немного перегружен, или вы можете загрузить файл CSV в пользовательский интерфейс AutoML и пометить объекты интерактивно.

person rsantiago    schedule 17.12.2020