知识计算引擎关键技术参加2016年国际知识库构建竞赛(NIST TAC KBP)取得好成绩

2012年,中国工程院启动建设“中国工程科技知识中心(CKCEST)”项目,该项目是我国工程科技领域重要的大数据项目。旨在打通和汇聚各类工程科技数据资源,通过技术分析处理形成知识库,并开发各种应用提供知识服务,推动国家工程科技战略思想库的建设,服务于国家的战略决策。

 

从数据到知识、再从知识到决策是实现大数据支撑下知识服务的主要途径。从数据的性质看,建设知识中心所需的知识是高度结构化的,而分散在各工程科技领域的数据资源绝大部分属于非结构化数据。如何将无序繁杂的文本、图像、视频等原始的非结构化数据加工转化为有序、可用、标准的结构化知识是知识中心建设的核心问题。这个问题的解决,需要数据汇聚、知识加工、数据可视化等诸多关键技术的支撑。

 

2015年4月,浙江大学团队提出了知识计算引擎KS-Studio(Knowledge Service-Studio)研发计划,旨在综合上述关键技术,探索有效解决这一问题的途径。通过技术手段让计算机自动完成从非结构化数据到知识这一过程。

 

图  KS-Studio 技术框架

 

KS-Studio作为一种知识计算引擎,是将非结构化数据转换为结构化知识及提供创新服务的一系列API和工具的集合。KS-Studio涵盖了从大数据到知识全过程中的核心功能,它包括实体检测、实体链接、属性填充、事件抽取、图像识别和文本描述生成以及跨媒体分析等技术内容。目前,KS-Studio的API分为自然语言APls、视觉API、跨媒体API三部分。

 

在2016年国际知识库构建竞赛(NIST TAC KBP)中,浙江大学DCD团队参与了针对英文文本与知识库的实体识别与链接项目,取得了该项目8项指标中6项第一,2项第二,最终获得了该项目综合指标第一名的好成绩。国际知识图谱构建大赛(KBP)始办于2009年,由美国国家标准与技术研究院(NIST)主办,是国际上影响力最大、参赛队伍最多、水平最高的科技赛事。历届参赛单位不仅包括IBM、美国卡耐基梅隆大学、美国伊利诺伊大学香槟分校等国际一流科研机构,还包括浙江大学、中科大、哈尔滨工业大学等国内顶尖高校。

 

知识计算引擎KS-Studio目前已经对外发布,详情请访问:http://ksstudio.org/