Я не совсем уверен, должен ли <category="Modifier">
работать, но, насколько мне известно, правильно в Быстрый старт аннотирует следующим образом:
{"annotations": [
{"text_extraction": {"text_segment": {"end_offset": 85, "start_offset": 52}}, "display_name": "Modifier"},
{"text_extraction": {"text_segment": {"end_offset": 144, "start_offset": 103}}, "display_name": "Modifier"},
{"text_extraction": {"text_segment": {"end_offset": 391, "start_offset": 376}}, "display_name": "Modifier"},
{"text_extraction": {"text_segment": {"end_offset": 1008, "start_offset": 993}}, "display_name": "Modifier"},
{"text_extraction": {"text_segment": {"end_offset": 1137, "start_offset": 1131}}, "display_name": "SpecificDisease"}],
"text_snippet": {"content": "10021369\tIdentification of APC2, a homologue of the adenomatous polyposis coli tumour suppressor .\tThe ... APC - / - colon
carcinoma cells . Human APC2 maps to chromosome 19p13 . 3. APC and APC2 may therefore have comparable functions in development and cancer .\n "}
}
После импорта набора данных в пользовательском интерфейсе AutoML NL вы увидите пять аннотаций, указанных в jsonl:
Для получения дополнительной информации о структуре jsonl в приведенном выше примере вы можете взглянуть на образцы файлов в Quickstart:
$ gsutil cat gs://cloud-ml-data/NL-entity/dataset.csv
TRAIN,gs://cloud-ml-data/NL-entity/train.jsonl
TEST,gs://cloud-ml-data/NL-entity/test.jsonl
$ gsutil cat gs://cloud-ml-data/NL-entity/train.jsonl
Если вы используете скрипт python для своих собственных текстовых строк, вы увидите, что он генерирует файл csv (dataset.csv) и файлы jsonl с таким содержимым, как:
{"text_snippet": {"content": "This is a disease\n Second line blah blabh"}, "annotations": []}
Итак, вам нужно будет указать annotations
(используя start_offset
и end_offset
), чей ручной процесс может быть немного перегружен, или вы можете загрузить файл CSV в пользовательский интерфейс AutoML и пометить объекты интерактивно.
person
rsantiago
schedule
17.12.2020