自注意力 – 拓端

视频：图解Transformer自注意力机制

作为数据科学家，我们在做智能文本处理系统优化时，常被一个问题困扰：传统模型处理长序列时总像 “断了线的风筝”—— 要么记不住前文（如 RNN 的梯度消失），要么抓不住全局关联（如 CNN 的窗口局限）。