Transformer 出处
论文地址:https://arxiv.org/abs/1706.03762
Transformer 特点
讲这个算法呢首先我觉得应该了解到他的优点和解决的问题,为什么有了CNN和RNN等类型的网络Transformer还会火起来,他解决了两个问题:
- 与CNN相比他能捕获长距离特征
- RNN也可以捕获长距离特征,但是RNN捕获是通过把当前词嵌入与之前的词嵌入向量通过神经元节点激活值结合,也就是前一时刻的计算,无法做到并行,而Transformer使用的是self-attention不会出现这种时间上的依赖,可以做到并行。