注意力机制可视化
Attention(Q, K, V) = softmax(QK
T
/ √d
k
) V
Query (Q)
Key (K)
注意力权重
输出 (V 加权)
Self-Attention 计算过程
Q 与 K 的点积衡量相似度,经过 softmax 归一化得到注意力权重,再与 V 加权求和得到输出。