【论文笔记】Discovering Relations among Named Entities from Large Corpora

ACL-2004 Discovering Relations among Named Entities from Large Corpora

核心思想

关键思想是根据插入命名实体之间的上下文词的相似性将成对的命名实体聚类。
作者使用一年的报纸数据进行的实验表明,不仅可以以较高的召回率(recall)和准确性来检测命名实体之间的关系,而且可以自动为关系提供适当的标签。

论文模型

方法主要基于上下文的实体对聚类。
假设可以将在相似上下文中出现的成对实体进行聚类,并且聚类中的每对实体都是相同关系的一个实例。 通过此聚类过程发现实体之间的关系。 在链接一对实体的上下文表达多个关系的情况下,我们期望该对实体要么根本不被聚类,要么被放置在与其最频繁表达的关系相对应的聚类中,因为它的上下文不会 与情境较不频繁的情况足够相似。 作者假设有用的关系将在大型语料库中经常提及,相反,提到一次或两次的关系不太重要。

基本研究思路:
1.标注语料库中的命名实体;

  1. 获取命名实体及其上下文的共现对;
  2. 测量命名实体对之间的上下文相似性;
    4.对成对的命名实体做聚类;
  3. 标注每一组命名实体对.

首先找到 组织对(pair of PRGANIZATIONs,ORG)A和B,以及C和D,然后运行报纸中的报纸语料库中的命名标识器。

收集在彼此之间一定距离内发生的A和B对的所有实例。 然后,累加介于A和B之间的上下文词,例如“be offer to buy”,“谈判获得”。以同样的方式,累加介于C和D之间的上下文词。 A和B以及C和D的相似,这两个对放置在同一群集中。 A – B和C – D将处于相同的关系,在这种情况下,是并购(M&A)。 也就是说,我们可以发现这些组织之间的关系。

命名体标记

本文纯无监督操作,只需要一个命名体标注器来标注命名实体。

命名体对和上下文

共现实体的定义:出现在相同的句子,并且中间插入的单词最多不能超过N个。为每个共现收集的插入词被视作上下文词的词干。命名实体的不同出现顺序也被视为不同的上下文。例如,e1,…,e2和e2,…,e1被收集为不同的上下文,其中e1和e2是命名体。

应消除频率较低的一对命名体,因为它们在学习关系中可能不太可靠。 因此,设置了频率阈值以移除这些对。

命名体对间上下文相似度

采用向量空间模型和余弦相似性来计算NE对上下文集之间的相似性。
作者只比较类型相同的实体对,比如 PERSON-GPE,必须检测Person-GPE域中Person和GPE之间的关系。

在制作上下文向量之前要删除停用词,并行表达式中的单词以及特定源文档所特有的表达式(以下示例),因为这些表达式会在计算相似度时引入噪音。

每个NE对的上下文向量由由两个命名实体的所有同时出现的所有中间单词构成的词袋(bag of words)组成。 上下文向量的每个单词都由tf idf加权,tf idf是项频率和文档反向频率的乘积。 词频是收集的上下文单词中单词的出现次数。 还考虑了命名实体的共现顺序。

如果一个单词 wi 在上下文 e1,…,e2 中出现了L次,在 e2,…,e1中出现了M次,wi 的 tfi 频率被定义为L-M,e1和e2是命名体。

作者认为,如果关系的自变量具有相同的NE类型,则该单词以不同顺序出现的频率会有效地检测关系的方向。 文件频率是包含单词的文件数量。

如果由于缺少内容词而导致上下文|α|向量的范数α非常小,则该向量与其他向量之间的余弦相似度可能不可靠。 因此,作者还预先定义了一个范数阈值以消除短上下文向量。
上下文向量之间的余弦相似度θ由以下公式计算得出。


余弦相似度从1到-1不等。 余弦相似度为1表示这些NE对具有完全相同的上下文词,并且主要以相同的顺序出现;余弦相似度为-1意味着这些NE对具有与相同的上下文词完全相同的上下文词,且主要出现在NE中相反的顺序。

命名体聚类

在计算出NE对的上下文向量之间的相似度之后,我们根据相似度对NE对进行聚类。 我们不知道我们应该预先建立多少个聚类,因此作者采用分层聚类。 提出了许多用于分层聚类的聚类方法,但是作者采用完全链接,因为它在创建聚类中比较保守。 聚类之间的距离被视为完全链接中群集之间最远节点的距离。

聚类标签

如果同一群集中的大多数NE对具有相同的单词,则这些通用单词将代表该群集的特征。 换句话说,可以将常用词视为特定关系的表征。 只计算同一聚类中NE对的所有组合中公共词的频率。 频率通过组合数量标准化。 如果群集中包含相同关系的网元对,则群集中的常见词将成为群集的标签,即它们将成为关系的标签。