随着计算机技术和互联网的飞速发展和知识互联时代的到来,人们期寄着构建一个更加智能的、机器可理解可计算的万维网。知识图谱的概念逐渐出现在人们视野中。知识图谱在语义处理、开放处理等功能方面都显现出很强的能力,在智能推荐、问答和对话系统以及大数据分析和决策等应用中也体现出越来越重要的价值。知识图谱预计将在互联网知识互联的实现过程中起到中流砥柱的作用。
在汉斯出版社《数据挖掘》期刊中,有论文首先以知识图谱的构建框架为背景。探讨信息抽取研究的意义;然后从MUC、ACE和ICDM三个国际测评会议的角度回顾信息抽取的发展历史;接着,基于面向限定域和开放域两个方面,介绍信息抽取的关键技术,包括实体抽取技术、关系抽取技术和属性抽取技术。
信息抽取系统是一种从大量信息源中迅速抛开无效信息找到有用信息的信息获取工具。信息抽取通常从两方面进行实现:一类是基于知识发现和数据挖掘的方法,通常处理结构化、半结构化的数据;另一类是基于自然语言处理和文本挖掘的方法,通常处理非结构化数据。信息抽取的具体方法可分为三类:第一类是基于规则(基于专家系统)的方法。主要在早期使用,使用人工编制规则,存在效率低,系统可移植性差等不可忽视的局限性;第二类是基于统计的方法,可在一定程度弥补第一类方法的缺点;第三类是基于机器学习的方法,,它大幅减少了人工干预,并具有处理新文本的能力,是目前常用的方法。
本文首先根据知识图谱的概念、构建技术框架引出了信息抽取的概念,接着通过三个国际评测会议介绍了信息抽取的发展历史;后续详细介绍了信息抽取关键技术,包括实体抽取、关系抽取和属性抽取;最后分析了信息抽取的研究趋势。我们系统性分析了面向知识图谱信息抽取的常用方法,根据技术特点分为实体抽取、关系抽取以及属性抽取三类子任务。其中各个子任务根据其应用领域分为面向特定领域和面向开放域两种,根据其数据来源分为面向文本和面向Web两种。
在面向特定领域的情境下,信息抽取各个子任务的技术方法较成熟、经典,例如在实体抽取中常用CRF、ME、HMM、NN-CRF等基于统计的模型;在关系抽取中常使用基于监督、半监督或无监督的机器学习方法。
在面向开放领域的应用中,随着大数据时代、全网时代的到来,更多新的优秀的方法 正在不断地涌现。具体地,在实体识别任务中,出现了一些基于自学习方法的实体分类模型,从而不再需要通过人工构造大量语料标注、大量的特征;在关系抽取中,出现了以OIE框架为基础的众多优秀系统,基本实现了各种词性间的关系抽取以及隐含关系的抽取。