相对位置并没有完整建模每个输入的位置信息,而是在算Attention的时候考虑当前位置与被Attention的位置的相对距离(i, j),由于自然语言一般更依赖于相对位置,所以相对位置编码通常也有着优秀的表现。对于相对位置编码来说,它的灵活性更大,更加体现出了研究人员的“天马行空”。 From 苏剑林
Learnable Absolute Position Encoding
出自 《Convolutional Sequence to Sequence Learning》 中的可学习的位置编码
直接将位置编码 p 当成参数来参与训练.
Fixed Absolute Position Encoding
Vanilla Transformer位置编码
2i 是指偶数位, 2i+1 奇数位, t 是指位置, d是指向量的维度
相对位置编码 relative position encoding
learnable : Swin Transformer
相同的相对位置采用同一个编码
去掉了(1)、(2)处的位置编码,将(3)变成一个learnable PE ,并加在了 Affinity Matrix 上