kg-2

知识图谱综述是对知识图谱近年来发展过程以及使用的最新技术进行整理概括的论文,可以说是知识图谱比较系统高效的入门学习资料,本文选择了几篇引用较多、影响力较大的综述进行总结。

知识图谱知识点架构图

本架构图是笔者在进行知识图谱相关工作一段时间之后,结合自己对知识图谱的理解以及部分综述文章整理出一套较为通用的知识图谱开发流程,然后基于该开发流程各阶段所需要的技术或者知识点绘制而成,可以在整体宏观层面对整个知识图谱相关知识点有一个全面的认识,本文对于多篇知识图谱综述文献中设计的技术点也会基于该架构图进行对比分析,同时本专栏系列文章也会紧密的结合该架构图进行展开说明。

知识图谱研究综述

本篇综述作者是清华大学的李娟子教授及其学生侯磊,本篇主要是对知识图谱的关键技术——知识表示、知识图谱构建和知识图谱应用进行了综述,并对知识图谱未来发展的挑战和趋势进行了总结展望。

知识表示

本篇综述对于知识表示主要是从发展的角度进行介绍,包括如下三个阶段:

  • 比较早时期采用符号逻辑的方式
  • 2000年以后出现的语义网对知识进行表示的方式,包括RDF、OWL等
  • 目前比较流行的采用表示学习方式,将知识学习成低维稠密的向量,通过向量间的关系可以在某种程度上反映知识之间的关系

知识图谱构建

知识图谱构建技术可以包括知识建模以及知识获取的部分技术,本篇主要介绍如下三个技术点:

  • 概念层次学习:与通常所说的本体比较类似,主要是反映事物之间上层抽象关系,上下位关系等。
  • 实事学习:主要就是抽取三元组知识的技术,整体上可以采用的方式与机器学习大分类类似,包括监督方式、半监督方式、无监督方式——监督方式采用规则、分类标注、序列标注等方式训练模型之后,再采用该模型进行知识抽取,主要会应用在领域知识的抽取;半监督方式主要包括自扩展方法和弱监督方法。自扩展方法需要初始的种子实体对,根据这些种子实体对,发现新的语义模板,再对语料进行迭代抽取以发现新的实体对;无监督的知识获取方法主要是开放信息抽取,使用自然语言处理方法,无须预先给定要抽取的关系类别,自动将自然语言句子转换为命题。
  • 语义集成:在其他文献中也可以有叫知识融合,发现不同知识库之间的等价关系,主要包括如下几种方法——基于文本相似度;基于图结构信息,比如simrank或者相似度传播等;基于已知开放知识库作为背景提高匹配效果;基于机器学习的方法将本体匹配问题视为机器学习中的分类或优化问题,从而采取机器学习方法获 得匹配结果。

知识图谱应用

本篇综述在知识应用方面介绍了如下三个方向:

  • 语义搜索:利用知识图谱所具有的良好定义的结构形式,以有向图的方式提供满足用户需求的结构化语义内容。
  • 知识问答:基于知识库的问答,通过对问句的语义分析,转换成结构化的查询语句,在已有结构化的知识库上获取答案。
  • 知识驱动的大数据分析与决策:

知识图谱研究进展

本篇综述作者是东南大学漆桂林教授及其博士研究生,主要是从知识图谱构建技术和知识图谱相关应用方面进行介绍。在整体上分为三大部分,第一部分为知识图谱技术地图简要说明,主要也是从流程方面抽象介绍;第二部分为其中关键技术点的介绍,第二部分可以说属于第一部分的深入;第三部分介绍了当前比较著名的开放知识图谱以及知识图谱相关应用。

知识图谱技术地图(第一部分)

  • 知识获取:分析介绍需要解决的问题与上一篇综述中概念层次学习和实事学习相似,也是包括从结构化、半结构化、非结构化数据中获取知识数据。
  • 知识融合:将已有的知识库的数据与从各数据源爬取的数据融合成一个统一大的知识库,提供统一的结构和数据,与上一篇综述中语义集成类似。
  • 知识计算及应用:通过图谱中本体、实体并结合规则推理隐含的知识或者进行链接预测等,给领域人员提供辅助决策意见。

关键技术点(第二部分)

实体关系识别技术

  • 监督学习:将命名实体识别任务转换为分类任务,发展过程中也经历了统计方式、SVM、最小公共子树、核函数、神经网络等阶段,抽取的准确率也逐渐提高,同时对于实体抽取和关系抽取也逐渐出现了两者联合抽取的方法。
  • 半监督学习:与上一篇文献中实事学习中介绍的类似,主要是基于Bootstrap方法进行,初始选取少量的实例作为种子集合,通过定义的模式进行抽取,通过多次迭代,实现从非结构化数据中抽取知识的目的。
  • 无监督学习:主要是基于聚类的方法。

知识融合技术

知识融合相较于数据融合需要解决不同知识抽取工具抽取的不同格式数据的融合对齐,多篇相应文献基于概率的角度来尝试解决相关问题,同样,知识融合中一个十分重要的核心问题就是本体匹配,在依据匹配对象上可分为模式匹配和实例匹配,在技术层面可分为启发式方法、基于图的方法、概率方法、基于学习的方法和基于推理的方法。

  • 模式匹配:模式匹配主要寻找本体中类似的属性和概念,主要具体方法包括基于类似WordNet词典或者本体信息结构、基于锚点逐步迭代、基于贝叶斯决策的风险最小化。
  • 实例匹配:实例匹配是评估异构知识源之间实例对的相似度,用来判断这些实体是否指向给定领域的相同实体,主要具体方法包括利用局部敏感性哈希或者向量空间模型来度量实体间的距离,从而计算实体之间的相似度。

实体链接技术

实体链接是指将文本中的实体指称链向知识库实体的过程,它能够丰富文本语义信息,在广义上也可以归纳为知识融合的一部分,也是大规模知识图谱构建十分重要的一个技术,本综述介绍的相关方法如下:

  • 基于概率生成模型的方法:主要是结合上下文,计算候选实体出现在场景中的概率来确定实体指称需要指向的候选实体。
  • 基于主题模型的方法:
  • 基于图的方法:将实体指称与候选实体基于文本相识度(词袋模型、word2vec均可)作为权重边构建成图,再采用各种方法(PageRank、置信度传播)更新节点之间的边的权重,在某种程度上利用了已有知识图谱中候选实体以及待链接文本的全局信息。
  • 基于深度学习的方法:

知识推理技术

知识推理技术可以说是知识图谱的灵魂,也是难度较大的技术点,本综述主要介绍了基于符号的推理以及基于统计的推理。

  • 基于符号的推理方法:基于符号的推理方法研究起源较早,主要理论依据是谓词逻辑相关数学工具,需要将知识图谱中的连接关系转为为符号表示,然后在采用谓词逻辑的方式进行推理,存在计算量较大的弊端,本综述介绍了在多机环境下进行并行计算的相关方法,同时也分析了目前已有相关系统的发展现状。
  • 基于统计的推理方法:本综述的中介绍的基于统计的推理方法一般指关系机器学习方法,主要包括实体关系学习方法、类型推理方法以及模式归纳方法。

知识图谱应用

本综述主要介绍知识图谱在如下几个方面的应用:

  • 股票投研情报分析:通过知识图谱相关技术从招股书、年报、公司公告、券商研究报告等半结构化表格或者非结构化文本数据抽取企业、股东、子公司、投资人、合作伙伴、竞争对手等信息构建公司知识图谱,通过对公司知识图谱进行知识挖掘以及知识推理,提供投资的辅助决策或者组合投资的风险控制。
  • 公安情报分析:通过融合政务、企业、个人的出行、交易、通话等信息构建公安安全知识图谱、并结合案情笔录调查数据,辅助公安进行刑侦、经侦等。
  • 反欺诈情报分析:通过融合来自不同知识源的信息构成知识图谱,同时引入领域专家构建业务规则,结合图谱和规则进行欺诈行为的识别。

相关资源现在地址

打个广告,本专栏中介绍总结的各种学习资源均会在该github中同步更新。

https://github.com/husthuke