NLP

【论文笔记】A Convolutional Neural Network for Modelling Sentences

文章目录

本篇笔记基于论文《A Convolutional Neural Network for Modelling Sentences》.

注：笔记学习参考深度之眼人工智能Paper训练营NLP方向第十课时课程。

经典神经句子模型

在词典中查找到相应的词的词向量，得到一个表征之后把这些词的embedding加起来再加上偏置值后就叫做一个得分，最后通过softmax输出各个分类的概率。

后来，经过改进，在单词的嵌入之后，添加一个权重（线性层）之后再加上偏置值，得到一个得分之后再通过softmax输出各个分类的概率。

继续改进，通过查找到embedding之后，将其输入到一个激活函数当中，得到一个表征，表征又经过一个激活函数，又得到一个表征，然后通过一个权重矩阵再加上偏置值，最后通过softmax得到各个分类的得分。

连续的n-gram模型同样也可以捕捉到很多连续的词的很多特征，但是如果句子过长会出现维度爆炸。

这个模型实际上是一个一维卷积模型，看图就能理解。

RNN则是通过把一段话不断不断的读出来，最后再输出一个结果。

通过解析树的形式先将句子构建出来再输入到网络当中。
但是这个需要人工来标注句子，耗费巨大。

文中包含两种卷积模型：窄卷积(左)和宽卷积(右)。
窄卷积：c=s-m+1
宽卷积：c=s+m-1
这里有个问题，图上的s8应该是作者标错了，应该是s7。

(1)很好地保留了词的顺序；
(2)能够区分是不是一个很好的n-gram(wide convolution);
(3)k-max pooling有能有效捕捉到多个特征；