Convolutional Sequence to Sequence Learning学习心得

上传：plvs32109 浏览： 25 推荐： 0 文件：PDF 大小：255.77KB 上传时间：2021-01-16 20:12:08 版权申诉

1 为什么使用CNN学习序列表示和RNN相比,CNN产生的背景向量固定并且通过stacking 可以使 contex size 更大,如下图。和RNN相比,CNN产生的背景向量固定并且通过stacking 可以使 contex size 更大,如上图。 Hierarchy representation 如图1,只需要三次CNN operation ,而需要 7 次 rnn 才能覆盖整个句子; 且RNN对于句首和句尾的非线性是不一致的 2 为什么引入注意力机制 Cho et al.,2014 解码器中目标序列中的任意一个词只考虑了编码器最终的映状态,即attend to 输入整个