Фон

В последнем посте я запускаю скрипт распознавания объектов, чтобы идентифицировать эти биомедицинские объекты в одном резюме. И мы замечаем, что термины некоторой сущности не гомогенизированы. Например, белок ретинобластомы и pRb используются взаимозаменяемо. Поскольку авторы исходных статей не обязаны использовать один и тот же термин, мне нужно заранее нормализовать термины в разных статьях. Если вы не читали мою последнюю статью, вы можете обратиться к ниже.



Канал
Изменить описаниеmedium.com



И я изложу свой подход к тому, как справиться с этим.

Подход

Для этого я запускаю следующий скрипт

И он выводит 72 биомедицинских именованных объекта.

['pRb', 'tumours', 'cyclin-dependent kinases', 'mouse', 'embryo fibroblasts', 'mdm2', 'tumour cell lines', 'CDK6', 'tumors', 'DP-1', 'ARF', 'liposarcomas', 'Ser-46', 'cancer', 'DP', 'nuclear', 'M(r) 16K', 'sarcomas', 'p130', 'p16', 'E2F-2', 'INK4a', 'ras', 'tumor', 'human papilloma virus E6', 'E2Fs', 'p107', 'DNA', 'D-type cyclins', 'eukaryotic cells', 'rat', 'chromosomal', 'anti-p107', 'E2F-3', 'tumour', 'ATM', 'cytoplasmic', 'E2F', 'CDKs', 'human', 'cancers', 'BALB/c cells', 'DYRK2', 'p14', 'CDKN2A beta', 'CIP1', 'MDM2', 'E2F-4', 'liposarcoma', 'Thr-33', 'p53', 'proliferating cell nuclear antigen', 'intracellular', 'CDKN2A', 'cell line', 'CDK4', 'cells', 'p21', 'alpha', 'soft tissue', 'E2F-1', 'cyclin D enzymes', 'S', 'D-type cyclin', 'retinoblastoma protein', 'nucleus', 'RB', 'cellular', 'cell', 'SaoS-2 osteosarcoma cells', 'bone', 'Ser-369']

Сверху вы заметите, что некоторые сущности принадлежат к одной и той же всеобъемлющей концепции. Например, «белок ретинобластомы», «pRb» и «RB» [1] и «p14 >', 'p16', 'INK4a' и ''CDKN2A' [2] принадлежат двум всеобъемлющим зонтикам, и они должны быть каким-то образом связаны .

Для этого я предлагаю использовать граф [3], чтобы связать все эти объекты в предложении и между различными абстрактами и посмотреть, как это происходит.

Однако есть несколько основных правил, которые я должен изложить, прежде чем построить упомянутый график:

1. Термины, которые могут использоваться взаимозаменяемо, будут сокращены до их аббревиатуры. Например, «белок ретинобластомы» → «pRb», «циклинзависимые киназы» → «CDK».

2. Неточно выраженный термин заменяется его правильной формой. Например, «p14» → «p14ARF», «p16» → «p16INK4a».

3. Общая концепция, например, "CDK", будет использоваться в качестве якоря для подключения дочерних объектов, таких как "CDKN2A".

4. Термины, которые выглядят одинаково, но имеют разные аннотации и относительные положения в иерархии. Например, «ферменты циклина D» и «циклин D-типа» относятся к двум разным объектам. Ферменты Cyclin D - это ферменты, которые необходимы для синтеза клеточного цикла, в то время как Cyclin D-типа представляет собой семейство белков, которые контролируют продвижение клетки по клеточному циклу путем активации ферментов циклинзависимой киназы (CDK). [4] [5] Циклины сами по себе не обладают ферментативной активностью, но имеют сайты связывания для некоторых субстратов и нацеливают CDK на определенные субклеточные местоположения.

Антракт

Теперь мы подошли к тому, что мне нужен способ нормализовать эти объекты, чтобы дальнейший анализ был последовательным и содержательным. В следующем посте я рассмотрю связь сущностей, чтобы решить проблему согласованности.

Следите за обновлениями!

[1] https://en.wikipedia.org/wiki/Ретинобластома_протеин

[2] https://en.wikipedia.org/wiki/CDKN2A

[3] https://en.wikipedia.org/wiki/Graph_theory

[4] https://en.wikipedia.org/wiki/Циклин

[5] https://www.britannica.com/science/kinase