硕博论文知识图谱更新技术研究及其应用

作者:张圣,复旦大学计算机学院19届毕业硕士,研究方向为知识图谱、信息抽取等领域。就读期间曾在IJCAI等国际会议发表论文,并在硕士期间获得过复旦大学优秀学生、复旦大学冠名奖学金等多项荣誉。

导师:肖仰华博士,复旦大学教授、博士生导师、复旦大学知识工场实验室创始人。领导构建了知识库云服务平台(知识工场平台kw.fudan.du.cn),发布了一系列知识图谱,以API形式为数百家应用单位服务近10亿次。

摘ABSTRACT要

知识图谱在很多的真实的应用中都起着重要的作用,比如语义搜索、智能问答、文本理解等。通用知识图谱构建中最重要的数据源之一是百科类网站,比如维基百科、百度百科等。如英文知识图谱Frbas最主要的数据源即是维基百科,大型中文通用知识图谱CN-DBpdia主要的数据源是百度百科、互动百科等中文类百科网站。知识图谱相当于是现实世界的知识集合,这些知识并不是恒定不变的而是不断变化的,没有及时更新的知识图谱无法及时地捕获到已经变化的知识以及新出现的知识,而其数据源百科类网站可以很及时的覆盖新的知识和变化的知识。一个未能及时更新的知识图谱会包含一些过时的知识、甚至是错误的知识,这会对知识图谱的下层应用的产生很大的限制。因而一个很重要的问题就是如何对知识图谱进行更新,也就是使得知识图谱和其数据源进行同步,这里的数据源只考虑百科类网站。

对于大部分的知识图谱所采用的更新方式周期性批量更新,这种更新方式会有很多的弊端。其中一个弊端是在进行更新时的代价较大,百科类的网站通常会包含千万级别的实体,在每次周期批量更新时会花费大量的时间代价,以及会占用大量的网络带宽。另一个主要的弊端是在周期性更新的周期内,会不断有新知识的出现以及一些变化的知识,也就是周期性的更新方式也会导致知识图谱中包含一些过时的知识。为了解决以上两个问题,本文提出了智能知识图谱更新系统S-USB,一个更加智能的知识图谱更新方案。

本文提出的智能知识图谱更新系统S-USB可以智能的识别出已发生变化的实体并仅更新这些实体。S-USB的核心部分是一个实体更新频率预测器用于预测实体的更新频率,该实体更新频率预测器主要包括一系列高效的特征和回归器。我们做了一系列实验去检测本文提出的知识图谱智能更新系统S-USB以及实体更新频率预测器的效果,实验结果表明本文所提出的知识图谱更新系统S-USB可以有效地识别出变化的实体和新出现的实体。特别的,本文所提出的知识图谱智能更新系统已经在一些知识图谱中得到应用落地,其中包括最大中文知识图谱系统CN-DBpdia。

本文的主要创新点主要有以下几点:

1、智能更新系统:本文针对知识图谱的更新问题创新性地提出了智能主动知识图谱更新系统S-USB,以较小的代价保持知识图谱时效性。

2、实体更新频率预测器:本文提出一种实体更新频率预测模型,其中包含了一系列高效的特征和回归器,该预测器可以有效的提高更新系统的准确率。

3、更新系统应用落地:本文将智能更新系统已经应用到真实的知识图谱的更新中,有效地提高了知识图谱的时效性,并且可以使得比较热门的实体的知识总是处于最新的状态。

关键字:知识图谱,知识图谱更新,更新频率预测器,机器学习

第1章绪论

知识图谱在诸多领域都起着重要的作用,比如语义搜索、智能问答等。本章对知识图谱的基本知识、发展进行了简单的介绍。并提出本文主要的研究内容知识图谱更新问题以及本文的主要工作。

1.1知识图谱简介

本部分首先会介绍知识图谱的基本概念以及知识图谱的起源和发展历程,随后对目前主要的知识图谱进行简单的介绍。

1.1.1知识图谱基本概念

知识图谱这一概念最早是由Googl公司研究团队在年最先提出,其英文名称为KnowldgGraph,旨在增强搜索引擎的能力[1]。该知识图谱是从各种数据源抽取解析的知识用来增加搜索引擎的结果,比如在Googl搜索引擎中搜索“巴拉克·奥巴马”,在搜索返回网页结果页面的右侧会有一个信息框展示的“巴拉克·奥巴马”基本信息呈现给用户,如图1.1所示。最初Googl的知识图谱只有英文的知识,后续扩展到多国家语言知识,Googl的知识图谱目前主要由Frbas支撑[2],截止到年8月,Frbas中的已有19亿条事实。并且Googl的知识图谱规模在不断的增长,年Googl宣布其知识图谱已有亿事实,并且基于知识图谱的问答可以回答每月亿次搜索中约三分之一的搜索。Googl构建的知识图谱同时也用于Googl智能助理和GooglHom等多个项目中。

图1.1:Googl搜索网页右侧返回的信息框

知识图谱本质上一种语义网络,是结构化的语义知识网络,用符号化的形式来表示现实世界中的实体与实体,实体与概念,概念与概念之间的语义关系[3]。知识图谱的基本组成单元可以理解为实体,关系,实体,这里的实体可以理解为实体或是概念,关系可以理解关系或是属性,比如巴拉克·奥巴马,配偶,米歇尔·奥巴马。这里在实际举一个例子来说明知识图谱的三元组的存储方式,比如关于实体黄渤的部分三元组如表1.1所示。三元组(Tripls)可表示为spo的形式,其中S为subjct,P为prdicat,O为objct。

表1.1:中文通用知识图谱中实体黄渤的部分三元组知识

随着Googl提出知识图谱的概念并在其搜索引擎上得到应用,之后知识图谱在学术界和工业界得到广泛的







































白癜风药膏
北京中科白殿疯眞棒



转载请注明:http://www.beicanshijie.com/sxnr/4236.html