随着时间的流逝,互联网技术的迅速发展,如何从大量的文本数据中获取对我们有用的信息成为了一种新的挑战。命名实体识别是信息抽取和信息检索中一项重要的任务,其目的是识别出文本中表示命名实体的成分,并对其进行分类。它在垃圾邮件过滤,舆论分析和邮件分类等许多领域中广泛使用并发挥重要作用。
考虑到采用对抗生成网络的形式能够更好地学习到样本数据的特征分布和采用变分自动编ma器能够更好地接近真实样本的优点,在汉斯出版社《计算机科学与应用》期刊中,有论文通过对抗网络的形式,将两种现阶段具有各自特点的先进模型进行了结合,综合设计了一种基于对抗生成网络的命名实体识别算法模型用以提高特征提取的准确有效性。
作为自然语言处理中非常基本但却十分重要的任务之一。命名实体识别同时也是许多自然语言处理任务中的重要基础工具(例如,提取信息,回答问题,解析和机器翻译)。命名实体的检测是信息提取中的一个子任务,它的目的是将文本中的命名实体本地化和分类为预定义的类别,例如时间表达,数量,货币价值,百分比等。检测命名实体的准确性决定了下游任务的有效性,这是NLP的一个非常重要的基本问题。实体边界识别和确定实体类别是命名实体识别过程的两个方面。
现如今命名实体识别仍然存在很多的问题,影响着信息检索领域的准确性。存在此类问题的原因主要有:命名实体识别只是在有限的文本类型和实体类别中取得了效果;与其他信息检索领域相比,实体命名评测预料较小,容易产生过拟合;命名实体识别更侧重高召回率,但在信息检索领域,高准确率更重要;通用的识别多种类型的命名实体的系统性很差。
近年来最具有代表性的算法模型便是基于生成对抗网络的命名实体识别模型和基于变分自动编ma器的半监督命名实体识别。两种模型都有其明显的优势,生成对抗网络能够完美地学习到样本特征的分布,以及变分自动编ma器网络能够更接近真实样本。同时也发现因为模型本身的限制,两者都具有一定的限制性,生成式对抗模型只能区分出生成样本的“真”、“假”,没有办法强制它所生成样本必须看起来像原始样本,变分自动编ma器直接采用均方误差而非对抗网络,其神经网络倾向于生成更为模糊的样本。
笔者综合考虑到了两种模型的优势和缺点,于文中主要设计了一种基于对抗性生成网络的改进的命名实体识别算法模型,将基于变分自动编ma器的命名实体识别和基于GAN的命名实体识别模式通过双生成网络的形式结合在一起,最终的模型将同时具有变分自动编ma器更接近真实样本的特性和对抗性生成网络能完美学习到训练样本的分布特性,该模型旨在提高命名实体识别问题中 特征提取的高有效性和高准确性。