-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多模态大语言模型构建WHO疫情新闻知识图谱的流行病学研究新范式
《Scientific Data》:An epidemiological knowledge graph extracted from the World Health Organization’s Disease Outbreak News
【字体: 大 中 小 】 时间:2025年06月11日 来源:Scientific Data 5.8
编辑推荐:
本研究针对WHO疫情新闻(DONs)非结构化数据难以系统分析的难题,创新性地采用Mistral-7B-OpenOrca/Zephyr-7B-Beta/Meta-Llama-3-70B-Instruct组成的LLMs(大语言模型)集成系统,构建了包含2,900+疫情事件的流行病学知识图谱(eKG)。该研究通过语义网技术实现46K三元组的知识表示,为全球传染病监测提供了FAIR(可查找、可访问、可互操作、可重用)数据基础设施,相关成果发表于《Scientific Data》。
在全球公共卫生领域,世界卫生组织(WHO)的疫情新闻(Disease Outbreak News, DONs)作为权威疫情信息源,30年来积累了3,000多份非结构化报告。然而这些宝贵的流行病学数据长期面临"数据孤岛"困境——叙事性文本格式导致关键信息(如病原体种类、地理分布、病例数)难以被机器自动提取,严重制约了疫情态势感知和科研转化效率。传统自然语言处理方法在应对疫情报告中的专业术语变异(如"MERS-CoV"与"中东呼吸综合征"的语义等价性)、时空信息模糊性等挑战时表现乏力。
欧洲委员会联合研究中心的Sergio Consoli团队创新性地将人工智能前沿技术与语义网技术相结合,开发了基于集成学习(Ensemble Learning)的自动化知识图谱构建管道。研究团队首先验证了开源大语言模型(LLMs)在流行病学信息抽取中的性能,发现由70亿参数的Mistral-7B-OpenOrca、Zephyr-7B-Beta和700亿参数的Meta-Llama-3-70B-Instruct组成的集成系统,其F1
分数(0.851-0.962)可媲美商业模型GPT-4。通过多数投票机制和SBERT(Sentence-BERT)语义相似度计算(阈值0.8),有效解决了LLMs的"幻觉"问题。
关键技术方法包括:1)采用滑动窗口注意力机制的LLMs处理长文本;2)基于BioBERT的生物医学实体识别;3)通过NCBO BioPortal和GeoNames实现实体链接;4)遵循RDF(资源描述框架)标准构建包含IDO(传染病本体)术语的OWL(网络本体语言)知识图谱;5)部署Virtuoso SPARQL端点支持复杂查询。研究团队从2,556份有效报告中提取出144种病原体和207个国家的疫情数据。
研究结果显示:
讨论部分指出,这项研究开创性地实现了:
研究也存在一定局限,如2013年MERS疫情数据因包含疑似病例导致相关性降低(r=0.36)。未来计划整合更多语种报告并引入因果推理模块。该成果为《国际卫生条例》修订提供了技术支撑,其FAIR化数据集已在欧盟数据门户开放获取。
知名企业招聘