近期,华为云EI医疗智能体(EIHealth)采用自研医学领域AI模型和知识图谱技术,从公开发表的新冠学术文献中快速构建新冠AI科研知识图谱,协助科研人员更快速、有效的开展抗疫科学研究和药物研发。
2020年初爆发的新型冠状病毒(SARS-CoV-2)是一种全新的病毒,由于科学家对它的致病机制和传播机制并不了解,给疾病的防御和治疗带来了巨大的挑战。随着各国研究人员不断的从临床研究、实验室中收集针对SARS-CoV-2的研究数据,短时间内大量的科研成果发表在科研期刊上。迄今为止,在主流的医学预印本文献库中,新冠病毒相关的学术文献已经达到了两千多篇。
为了能够更有效的帮助科研工作者在海量的新冠病毒相关文献中总结、查询、推理有效的知识,华为云使用ModelArts Pro知识图谱套件,从公开发表的新冠学术文献中,自动抽取相应实体和关系,并构建了首个包含药物、疾病、病毒蛋白、人类蛋白等不同类型实体的新冠科研知识图谱。
这项工作的一大难点,是如何实现高精度的领域命名实体识别和关系抽取,比如上图中句子里提到的相关病毒蛋白(Virus Protein)、 人类蛋白(Human Protein)、病毒(Virus)以及从上下文判别出的相互关系。研发团队采用了华为诺亚方舟实验室和华为云最新研究成果医学领域知识监督的预训练语言模型:BERT-MK (BERT-based language model with Medical Knowledge) ,并融合了团队在知识挖掘领域积累的多项深度语义表示和检索技术。值得一提的是,在此前的科学文献挖掘领域相关赛事上,华为云语音语义创新Lab已多次夺冠,包括DigSci 2019和WSDM Cup 2020