【论文笔记】A Convolutional Neural Network for Modelling Sentences

文章目录
  1. 1. 经典神经句子模型
    1. 1.1. bag-of-words | bag-of-n-words
    2. 1.2. Time-delay Neural Networks
    3. 1.3. Recurrent Neural Networks
    4. 1.4. Recursive neural networks
  2. 2. 论文主要内容
    1. 2.1. 论文中提出的模型结构
    2. 2.2. 模型的优势

本篇笔记基于论文《A Convolutional Neural Network for Modelling Sentences》.

注:笔记学习参考深度之眼人工智能Paper训练营NLP方向第十课时课程。

经典神经句子模型

bag-of-words | bag-of-n-words

在词典中查找到相应的词的词向量,得到一个表征之后把这些词的embedding加起来再加上偏置值后就叫做一个得分,最后通过softmax输出各个分类的概率。

后来,经过改进,在单词的嵌入之后,添加一个权重(线性层)之后再加上偏置值,得到一个得分之后再通过softmax输出各个分类的概率。

继续改进,通过查找到embedding之后,将其输入到一个激活函数当中,得到一个表征,表征又经过一个激活函数,又得到一个表征,然后通过一个权重矩阵再加上偏置值,最后通过softmax得到各个分类的得分。

连续的n-gram模型同样也可以捕捉到很多连续的词的很多特征,但是如果句子过长会出现维度爆炸。

Time-delay Neural Networks

这个模型实际上是一个一维卷积模型,看图就能理解。

Recurrent Neural Networks

RNN则是通过把一段话不断不断的读出来,最后再输出一个结果。

Recursive neural networks

通过解析树的形式先将句子构建出来再输入到网络当中。
但是这个需要人工来标注句子,耗费巨大。

论文主要内容

论文中提出的模型结构

文中包含两种卷积模型:窄卷积(左)和宽卷积(右)。
窄卷积:c=s-m+1
宽卷积:c=s+m-1
这里有个问题,图上的s8应该是作者标错了,应该是s7。

模型的优势

(1)很好地保留了词的顺序;
(2)能够区分是不是一个很好的n-gram(wide convolution);
(3)k-max pooling有能有效捕捉到多个特征;