【论文笔记】Neural Relation Extraction with Selective Attention over Instances

文章目录
  1. 1. 前期知识补充
    1. 1.1. 关系抽取简介
    2. 1.2. 有监督关系抽取
    3. 1.3. 无监督关系抽取
    4. 1.4. 弱监督关系抽取
    5. 1.5. 关系抽取的发展历史
    6. 1.6. 多示例学习
    7. 1.7. 远程监督关系抽取的流程
  2. 2. 传统经典模型
    1. 2.0.1. 分段卷积网络-PCNN
  • 3. 论文主要内容
    1. 3.1. 基于句子层次注意力的CNN
    2. 3.2. 注意力层
    3. 3.3. 选择注意力层
    4. 3.4. 输出层
    5. 3.5. 神经网络参数
    6. 3.6. 实验和数据集设置
    7. 3.7. 实验结果
    8. 3.8. 论文的主要贡献
  • 本篇论文是基于《Neural Relation Extraction with Selective Attention over Instances》,作者是我特别特别特别敬仰的刘知远老师。

    注:笔记学习参考深度之眼人工智能Paper训练营NLP方向第十三课时课程。

    前期知识补充

    关系抽取简介

    关系抽取是从文本中自动获取实体间关系事实的代表性任务。该任务的目标是,给定一个包含两个实体的句子,从中抽取出这两个实体之间的关系。
    关系抽取是信息抽取的任务之一,在知识图谱的自动化构建和补全方面发挥着十分重要的作用。

    有监督关系抽取

    无监督关系抽取

    无监督关系抽取方法主要基于分布假设理论,分布假设的核心思想是:如果两个词的用法相似即出现在相同的上下文中,那么这两个词就意思相近。相应的,在实体关系抽取中,如果两个实体对具有相似的语境,那么这两个实体对倾向于具有相同的语义关系。基于此理论,无监督关系抽取将两个实体的上下文作为表征语义关系的特征。

    无监督关系抽取方法可以发现新的关系,但是它发现的新关系往往是相似模板的聚类,其缺点是得到的关系不具有语义信息,难以规则化,很难被用来构建知识库,研究相对较少。

    弱监督关系抽取

    弱监督学习是有监督学习和无监督学习的折中,训练数据只有部分标注或者标注有噪声。弱监督关系抽取主要有两种框架:
    1.使用半监督学习和主动学习等技术以尽可能少的代价提升抽取效果;
    2.使用远程监督回标的思想,利用现有知识库中的关系三元组,自动回标三元组中实体所在的文本作为训练数据,由于其训练数据产生过程不需要人工标注,近年来在信息抽取领域得到广泛的应用,同时也是关系抽取的研究热点。

    关系抽取的发展历史

    rt

    多示例学习

    把训练数据集中每一个数据看作一个包(bag),每个包由多个示例(instance)构成,每个包由一个可见的标签,而包中的示例如果没有可见的标签。如果包中至少包含一个标签为正(postive)的示例,则包的标签为正;如果包中所有示例的标签都是负(negtive)的,则包的标签为负。多示例学习的过程就是通过模型对包及其包含的示例进行分析预测得出包的标签。

    关系抽取的目标是获得两个实体之间的联系,而不是狭义地对句子分类。
    将远程监督关系抽取看作是一个多示例问题,这样一来,就只需要要求在回标出来的所有句子中,至少有一个句子能表示两个实体间的关系。也就是将一个实体对对应的所有句子看作一个包,其中每一个句子就是包中的一个示例,从而解决回标噪声的问题。

    远程监督关系抽取的流程

    rt,多示例学习指导下的远程监督关系抽取的核心假设:至少一句表达真实关系。

    传统经典模型

    分段卷积网络-PCNN

    PCNN的全称是Piecewise Convolutional Neural Network,其模型结构如下:

    输入层
    关系抽取的任务是给两个实体确定语义关系,位置特征对这一任务特别重要,因此在向量化表示时,对句子中每个词相对于实体对的位置进行建模。当实体由多个词组成时,设定整个实体只占据一个位置。

    卷积层
    为了捕获不同的特征,卷积运算时一般使用多个滤波器。假设使用n个滤波器:

    卷机操作如下,其中j是输入的长度:

    结果如下:

    分段最大池化
    对于关系抽取,最大池化丢失太多信息,而一个句子天然地被给定的两个实体分成了三段,包括两个实体之间的特征以及实体前后的特征,分段池化可以在一定程度上保留句子中的结构化信息。
    每个滤波器得到的结果分成三段:{ci1,ci2,ci3}.

    pi={pi1,pi2,pi3}

    输出层

    输出层表示如下:

    使用dropout来防止过拟合:

    论文主要内容

    基于句子层次注意力的CNN

    模型结构如下所示:

    其中mi是最初实体对的句子,αi是句子级注意力机制的权重,r表示这个实体对所对应的句子集合(包)的向量表示。
    完整的模型结构如下图所示:

    注意力层

    在预测两个实体之间是否存在关系r时,为了充分利用所有句子的信息,模型将集合s表示为所有句向量与注意力权重相乘的和:

    接着,一个很直接的想法就是通过句子向量xi的加权平衡计算来得到s的向量表示:

    选择注意力层

    将集合s表示成一个统一的特征向量来进行预测:

    ei是一个能量函数,通过这个函数,可以描述句子xi和想要预测的关系类型r在多大程度上是匹配的。ei越高表示句子xi越能够表述关系r的语义。这里模型选择了双线性函数来计算:

    通过计算,就能得到xi和r的匹配程度。

    输出层

    全连接层+dropout

    计算概率:

    其中nr是关系的种类数,o是神经网络的输出。

    神经网络参数

    实验和数据集设置

    评价指标 精度-召回率曲线(P-R Curve)和最高置信度预测精度(P@N)。
    为了证明语句级别选择注意力机制的有效性,文章选择CNN及其变种模型PCNN作为句子编码器。将两种不同类型的卷积神经网络与句子级别注意力机制(ATT),其基线版本(AVE)以及多示例学习(ONE)方法的表现进行比较。

    实验结果

    论文的主要贡献

    (1) 与现有的神经关系抽取模型相比,本文模型可以充分利用每对实体之间的所有有效信息;
    (2) 为了解决远程监督中的标签错误问题,文章提出了选择注意力机制来实现句子级别的去噪;
    (3) 在实验中验证了选择注意力有助于提升两种CNN模型在关系抽取任务中的效果。