注意力机制可视化

Attention(Q, K, V) = softmax(QKT / √dk) V

Query (Q)

Key (K)

注意力权重

输出 (V 加权)

Self-Attention 计算过程

Q 与 K 的点积衡量相似度,经过 softmax 归一化得到注意力权重,再与 V 加权求和得到输出。