基于多模态大语言模型构建WHO疫情新闻知识图谱的流行病学研究新范式

《Scientific Data》:An epidemiological knowledge graph extracted from the World Health Organization’s Disease Outbreak News

【字体: 时间:2025年06月11日 来源:Scientific Data 5.8

编辑推荐:

  本研究针对WHO疫情新闻(DONs)非结构化数据难以系统分析的难题,创新性地采用Mistral-7B-OpenOrca/Zephyr-7B-Beta/Meta-Llama-3-70B-Instruct组成的LLMs(大语言模型)集成系统,构建了包含2,900+疫情事件的流行病学知识图谱(eKG)。该研究通过语义网技术实现46K三元组的知识表示,为全球传染病监测提供了FAIR(可查找、可访问、可互操作、可重用)数据基础设施,相关成果发表于《Scientific Data》。

  

在全球公共卫生领域,世界卫生组织(WHO)的疫情新闻(Disease Outbreak News, DONs)作为权威疫情信息源,30年来积累了3,000多份非结构化报告。然而这些宝贵的流行病学数据长期面临"数据孤岛"困境——叙事性文本格式导致关键信息(如病原体种类、地理分布、病例数)难以被机器自动提取,严重制约了疫情态势感知和科研转化效率。传统自然语言处理方法在应对疫情报告中的专业术语变异(如"MERS-CoV"与"中东呼吸综合征"的语义等价性)、时空信息模糊性等挑战时表现乏力。

欧洲委员会联合研究中心的Sergio Consoli团队创新性地将人工智能前沿技术与语义网技术相结合,开发了基于集成学习(Ensemble Learning)的自动化知识图谱构建管道。研究团队首先验证了开源大语言模型(LLMs)在流行病学信息抽取中的性能,发现由70亿参数的Mistral-7B-OpenOrca、Zephyr-7B-Beta和700亿参数的Meta-Llama-3-70B-Instruct组成的集成系统,其F1
分数(0.851-0.962)可媲美商业模型GPT-4。通过多数投票机制和SBERT(Sentence-BERT)语义相似度计算(阈值0.8),有效解决了LLMs的"幻觉"问题。

关键技术方法包括:1)采用滑动窗口注意力机制的LLMs处理长文本;2)基于BioBERT的生物医学实体识别;3)通过NCBO BioPortal和GeoNames实现实体链接;4)遵循RDF(资源描述框架)标准构建包含IDO(传染病本体)术语的OWL(网络本体语言)知识图谱;5)部署Virtuoso SPARQL端点支持复杂查询。研究团队从2,556份有效报告中提取出144种病原体和207个国家的疫情数据。

研究结果显示:

  1. 数据特征:知识图谱包含46,000个非具体化(non-reified)三元组,通过<主体-谓词-客体>形式精准表征疫情要素,如"<尼帕病毒, 导致, 13例死亡>"。
  2. 时空验证:以2018年刚果民主共和国埃博拉疫情为例,系统成功重建了2018-2020年基伍埃博拉流行曲线,与WHO官方记录高度吻合(R2
    =0.69)。
  3. 模型比较:集成系统在病例数提取任务上F1
    达0.658,显著优于单一模型(如Pythia-12B仅0.315)。

讨论部分指出,这项研究开创性地实现了:

  1. 方法论突破:首次将LLMs集成系统与语义网技术结合应用于疫情监测,验证了开源模型可替代商业API的可行性;
  2. 知识表示创新:通过OPLa(本体设计模式标注框架)复用IDO本体,确保与ICD-10(国际疾病分类)的语义互操作性;
  3. 公共卫生价值:构建的eKG知识图谱支持LOD(关联开放数据)标准,可通过LodView等工具实现疫情时空可视化(如图3所示)。

研究也存在一定局限,如2013年MERS疫情数据因包含疑似病例导致相关性降低(r=0.36)。未来计划整合更多语种报告并引入因果推理模块。该成果为《国际卫生条例》修订提供了技术支撑,其FAIR化数据集已在欧盟数据门户开放获取。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号