注意力机制

SunnyFan大约 18 分钟约 5326 字

注意力机制

简介

注意力机制（Attention Mechanism）是现代深度学习中最重要的范式之一。它通过动态计算输入各位置的相关性权重，让模型聚焦于最相关的信息。自注意力（Self-Attention）是 Transformer 的核心，也是 BERT、GPT 等大语言模型的基础组件。

注意力机制的思想源于人类视觉系统的选择性注意：人在观察一幅图像时，并非均匀地处理所有区域，而是将注意力集中在关键区域。2014 年，Bahdanau 等人在机器翻译任务中首次将注意力机制引入深度学习，解决了 RNN 编码器将整个输入序列压缩为固定长度向量时的信息瓶颈问题。

2017 年，Vaswani 等人提出的 "Attention Is All You Need" 论文将注意力机制推向了新的高度：完全抛弃了 RNN 结构，仅用自注意力（Self-Attention）和前馈网络构建了 Transformer 架构。这一架构不仅解决了 RNN 的长距离依赖和训练并行性问题，还为后续的 BERT、GPT、ViT 等一系列突破性模型奠定了基础。

从数学本质来看，注意力机制是一种加权聚合操作：给定一组键值对（Key-Value pairs）和一个查询（Query），通过计算 Query 与所有 Key 的相似度来得到注意力权重，然后用这些权重对 Value 进行加权求和。这与数据库中的查询、字典中的查找有着异曲同工之妙。

特点

1.动态权重分配 — 根据输入内容自适应计算注意力权重，不同输入产生不同的关注模式
2.全局感受野 — 自注意力让序列中每个位置都能直接与任意其他位置交互，突破 CNN 和 RNN 的局部限制
3.多头并行 — 多头注意力从不同子空间捕获不同类型的关系（语法、语义、位置等）
4.可解释性 — 注意力权重矩阵可以直接可视化，帮助理解模型关注的区域
5.灵活兼容 — 可以与 CNN、RNN 等架构组合使用，增强长距离建模能力

注意力机制的统一视角

所有注意力机制都可以用统一的框架来理解：

Attention(Q, K, V) = softmax(score(Q, K)) × V

其中 score(Q, K) 是相似度函数，不同的相似度函数定义了不同的注意力变体：

加性注意力（Bahdanau）：score = v^T tanh(W_q Q + W_k K)
点积注意力：score = Q · K
缩放点积注意力：score = Q · K / sqrt(d_k)
相对位置注意力：score = Q · K + 相对位置偏置

实现

# 示例1：缩放点积注意力（Scaled Dot-Product Attention）
import torch
import torch.nn.functional as F
import math

def scaled_dot_product_attention(Q, K, V, mask=None):
    """
    Q: (batch, seq_q, d_k)
    K: (batch, seq_k, d_k)
    V: (batch, seq_k, d_v)
    """
    d_k = Q.size(-1)
    # 计算注意力分数
    scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(d_k)

    # 应用 mask（用于 decoder 防止看到未来信息）
    if mask is not None:
        scores = scores.masked_fill(mask == 0, float('-inf'))

    # softmax 归一化
    weights = F.softmax(scores, dim=-1)

    # 加权求和
    output = torch.matmul(weights, V)
    return output, weights

# 演示
Q = torch.randn(2, 5, 64)
K = torch.randn(2, 6, 64)
V = torch.randn(2, 6, 128)
output, weights = scaled_dot_product_attention(Q, K, V)
print(f"输出形状: {output.shape}, 权重形状: {weights.shape}")
print(f"权重每行求和: {weights[0, 0].sum().item():.4f}")  # 应为1.0

# 示例2：多头注意力（Multi-Head Attention）
import torch.nn as nn

class MultiHeadAttention(nn.Module):
    def __init__(self, d_model=512, num_heads=8):
        super().__init__()
        assert d_model % num_heads == 0
        self.d_k = d_model // num_heads
        self.num_heads = num_heads

        self.W_q = nn.Linear(d_model, d_model)
        self.W_k = nn.Linear(d_model, d_model)
        self.W_v = nn.Linear(d_model, d_model)
        self.W_o = nn.Linear(d_model, d_model)

    def forward(self, Q, K, V, mask=None):
        batch = Q.size(0)

        # 线性投影并拆分多头
        Q = self.W_q(Q).view(batch, -1, self.num_heads, self.d_k).transpose(1, 2)
        K = self.W_k(K).view(batch, -1, self.num_heads, self.d_k).transpose(1, 2)
        V = self.W_v(V).view(batch, -1, self.num_heads, self.d_k).transpose(1, 2)

        # 缩放点积注意力
        attn_output, attn_weights = scaled_dot_product_attention(Q, K, V, mask)

        # 合并多头
        attn_output = attn_output.transpose(1, 2).contiguous().view(batch, -1, self.num_heads * self.d_k)
        return self.W_o(attn_output), attn_weights

mha = MultiHeadAttention(d_model=512, num_heads=8)
x = torch.randn(2, 10, 512)
output, weights = mha(x, x, x)  # 自注意力：Q=K=V
print(f"多头注意力输出: {output.shape}, 权重: {weights.shape}")

# 示例3：交叉注意力在编码器-解码器中的应用
class CrossAttentionBlock(nn.Module):
    """解码器用交叉注意力获取编码器输出"""
    def __init__(self, d_model=256, num_heads=4):
        super().__init__()
        self.cross_attn = MultiHeadAttention(d_model, num_heads)
        self.self_attn = MultiHeadAttention(d_model, num_heads)
        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)
        self.ffn = nn.Sequential(
            nn.Linear(d_model, d_model * 4),
            nn.GELU(),
            nn.Linear(d_model * 4, d_model),
        )
        self.norm3 = nn.LayerNorm(d_model)

    def forward(self, x, encoder_output, self_mask=None, cross_mask=None):
        # 自注意力：解码器自身交互
        x = x + self.self_attn(x, x, x, self_mask)[0]
        x = self.norm1(x)
        # 交叉注意力：解码器关注编码器
        x = x + self.cross_attn(x, encoder_output, encoder_output, cross_mask)[0]
        x = self.norm2(x)
        # 前馈网络
        x = x + self.ffn(x)
        x = self.norm3(x)
        return x

decoder = CrossAttentionBlock()
dec_input = torch.randn(2, 8, 256)    # 解码器序列
enc_output = torch.randn(2, 20, 256)   # 编码器输出
out = decoder(dec_input, enc_output)
print(f"交叉注意力输出: {out.shape}")

# 示例4：注意力权重可视化
import matplotlib
matplotlib.use('Agg')
import matplotlib.pyplot as plt

def visualize_attention(weights, tokens_q, tokens_k, save_path="attention.png"):
    """将注意力权重可视化为热力图"""
    fig, ax = plt.subplots(figsize=(8, 6))
    im = ax.imshow(weights, cmap='Blues', vmin=0, vmax=1)
    ax.set_xticks(range(len(tokens_k)))
    ax.set_yticks(range(len(tokens_q)))
    ax.set_xticklabels(tokens_k, rotation=45, ha='right')
    ax.set_yticklabels(tokens_q)
    plt.colorbar(im, ax=ax)
    plt.title("Attention Weights")
    plt.tight_layout()
    plt.savefig(save_path, dpi=150)
    plt.close()

# 模拟：句子 "the cat sat on the mat" 的自注意力
tokens = ["the", "cat", "sat", "on", "the", "mat"]
# "sat" 关注 "cat" 较多（主谓关系）
fake_weights = torch.tensor([
    [0.3, 0.1, 0.1, 0.1, 0.3, 0.1],
    [0.1, 0.2, 0.4, 0.05, 0.1, 0.15],
    [0.05, 0.5, 0.1, 0.1, 0.05, 0.2],
    [0.1, 0.05, 0.1, 0.2, 0.1, 0.45],
    [0.35, 0.05, 0.05, 0.1, 0.35, 0.1],
    [0.05, 0.2, 0.15, 0.4, 0.05, 0.15],
])
visualize_attention(fake_weights.numpy(), tokens, tokens)
print("注意力热力图已保存到 attention.png")

深入理解：缩放因子的数学推导

import torch
import torch.nn.functional as F
import math

def explain_scaling_factor():
    """为什么需要除以 sqrt(d_k)？

    当 d_k 较大时，点积 Q·K 的方差为 d_k（假设 Q 和 K 的各分量独立，
    均值为 0，方差为 1）。

    这意味着点积的值会随 d_k 线性增长。当这些大值进入 softmax 时，
    softmax 会将概率集中在最大值上，导致梯度极其接近 0（梯度消失）。

    除以 sqrt(d_k) 将方差归一化为 1，使得 softmax 的输入保持在合理范围内。

    数学推导：
    设 Q, K 的各分量 ~ N(0, 1)
    点积 s = Q·K = Σ q_i * k_i
    E[s] = 0
    Var[s] = d_k * Var[q_i * k_i] = d_k * 1 = d_k
    所以 s ~ N(0, d_k)，标准差为 sqrt(d_k)

    除以 sqrt(d_k) 后：
    s / sqrt(d_k) ~ N(0, 1)
    """
    print("不同 d_k 下的点积分布:")
    for d_k in [8, 32, 64, 128, 512]:
        Q = torch.randn(10000, d_k)
        K = torch.randn(10000, d_k)
        dots = (Q * K).sum(dim=-1)
        print(f"  d_k={d_k:4d}: 点积均值={dots.mean():.2f}, "
              f"标准差={dots.std():.2f}, "
              f"理论值 sqrt(d_k)={math.sqrt(d_k):.2f}")

    print("\n缩放后的分布:")
    for d_k in [8, 32, 64, 128, 512]:
        Q = torch.randn(10000, d_k)
        K = torch.randn(10000, d_k)
        dots = (Q * K).sum(dim=-1) / math.sqrt(d_k)
        print(f"  d_k={d_k:4d}: 缩放后均值={dots.mean():.2f}, 标准差={dots.std():.2f}")

explain_scaling_factor()

深入理解：注意力变体

稀疏注意力

import torch
import torch.nn as nn
import torch.nn.functional as F

class WindowAttention(nn.Module):
    """窗口注意力（Swin Transformer 的核心）

    标准自注意力的复杂度为 O(n^2)，对于高分辨率图像或长文本不可行。

    窗口注意力的策略：
    1. 将序列划分为不重叠的局部窗口（如 7x7）
    2. 在每个窗口内独立计算自注意力（复杂度 O(w^2 * n/w^2) = O(n)）
    3. 通过窗口移位（Shifted Window）实现跨窗口信息交换

    类似的方法还有：
    - Longformer: 固定窗口 + 全局 token（如 [CLS]）
    - BigBird: 随机 + 窗口 + 全局的混合模式
    - Sparse Transformer: 固定稀疏模式
    """
    def __init__(self, d_model, window_size, num_heads):
        super().__init__()
        self.window_size = window_size
        self.num_heads = num_heads
        self.d_k = d_model // num_heads
        self.qkv = nn.Linear(d_model, d_model * 3)
        self.proj = nn.Linear(d_model, d_model)

    def forward(self, x, H, W):
        B, N, C = x.shape
        # 将特征图 reshape 为窗口
        x = x.view(B, H, W, C)
        # 将 H x W 划分为多个 window_size x window_size 的窗口
        nH, nW = H // self.window_size, W // self.window_size
        x = x.view(B, nH, self.window_size, nW, self.window_size, C)
        # 重排为 (B * nH * nW, window_size^2, C)
        windows = x.permute(0, 1, 3, 2, 4, 5).contiguous()
        windows = windows.view(-1, self.window_size ** 2, C)

        # 在每个窗口内计算注意力
        B_w, N_w, C = windows.shape
        qkv = self.qkv(windows).reshape(B_w, N_w, 3, self.num_heads, self.d_k)
        qkv = qkv.permute(2, 0, 3, 1, 4)
        q, k, v = qkv[0], qkv[1], qkv[2]

        attn = (q @ k.transpose(-2, -1)) * (self.d_k ** -0.5)
        attn = F.softmax(attn, dim=-1)
        out = (attn @ v).transpose(1, 2).reshape(B_w, N_w, C)
        out = self.proj(out)

        # 将窗口结果拼回原始尺寸
        out = out.view(B, nH, nW, self.window_size, self.window_size, C)
        out = out.permute(0, 1, 3, 2, 4, 5).contiguous()
        out = out.view(B, H, W, C).view(B, N, C)
        return out

print("窗口注意力已定义 — 线性复杂度替代二次复杂度")

线性注意力

import torch
import torch.nn as nn
import torch.nn.functional as F

class LinearAttention(nn.Module):
    """线性注意力（Linear Attention）

    核心思想：利用结合律重排计算顺序，将 O(n^2) 降为 O(n)

    标准注意力：softmax(QK^T) V — 需要 O(n^2) 的注意力矩阵
    线性注意力：phi(Q) (phi(K)^T V) — 利用 (AB)V = A(BV) 重排

    其中 phi 是一个核函数，常用的选择：
    1. phi(x) = elu(x) + 1（ELU+1 核）
    2. phi(x) = softmax(x)（但这样就不能重排了）

    优点：内存 O(n)，计算 O(n)
    缺点：近似效果，性能可能下降
    """
    def __init__(self, d_model, num_heads):
        super().__init__()
        self.num_heads = num_heads
        self.d_k = d_model // num_heads
        self.qkv = nn.Linear(d_model, d_model * 3)
        self.proj = nn.Linear(d_model, d_model)

    def elu_plus_one(self, x):
        return F.elu(x) + 1

    def forward(self, x):
        B, N, C = x.shape
        qkv = self.qkv(x).reshape(B, N, 3, self.num_heads, self.d_k)
        qkv = qkv.permute(2, 0, 3, 1, 4)
        q, k, v = qkv[0], qkv[1], qkv[2]

        # 应用核函数
        q = self.elu_plus_one(q)  # (B, H, N, d_k)
        k = self.elu_plus_one(k)  # (B, H, N, d_k)

        # 线性注意力：phi(Q) (phi(K)^T V) = phi(Q) ((phi(K)^T V))
        kv = torch.einsum('bhnd,bhne->bhde', k, v)  # (B, H, d_k, d_k)
        k_sum = k.sum(dim=2, keepdim=True)            # (B, H, 1, d_k)
        normalizer = torch.einsum('bhnd,bhde->bhne', q, k_sum)  # (B, H, N, 1)

        out = torch.einsum('bhnd,bhde->bhne', q, kv) / (normalizer + 1e-6)
        out = out.transpose(1, 2).reshape(B, N, C)
        return self.proj(out)

lin_attn = LinearAttention(d_model=256, num_heads=4)
x = torch.randn(2, 1024, 256)
print(f"线性注意力: {x.shape} -> {lin_attn(x).shape}")
print("复杂度: O(n * d^2) 而非 O(n^2 * d)")

Flash Attention 原理

def explain_flash_attention():
    """Flash Attention 的核心思想（无需代码实现，使用 PyTorch 内置的 F.scaled_dot_product_attention）

    Flash Attention 解决的核心问题：
    标准注意力的内存瓶颈——中间的 n×n 注意力矩阵需要写入 HBM（GPU 显存），
    导致大量的 IO 开销。

    Flash Attention 的方法：
    1. 分块计算（Tiling）：将 Q, K, V 分为小块，逐块计算
    2. 在线 Softmax：通过数学技巧在不物化完整注意力矩阵的情况下计算 softmax
    3. IO 感知：尽量在 SRAM（片上缓存）中完成计算，减少 HBM 读写

    数学原理——在线 Softmax：
    标准 softmax 需要先算所有值再归一化
    Online softmax 可以增量式计算：
    - 维护 running max 和 running sum
    - 每处理一个新块，更新 max 和 sum
    - 最终用累积的 max 和 sum 归一化

    效果：
    - 速度提升 2-4x
    - 内存从 O(n^2) 降到 O(n)
    - 数学结果与标准注意力完全一致（非近似）
    """
    print("Flash Attention 2 的关键特性:")
    print("  1. 数学结果与标准注意力完全一致")
    print("  2. 内存从 O(n^2) 降到 O(n)")
    print("  3. 通过 SRAM 分块计算减少 HBM IO")
    print("  4. 支持因果掩码和注意力 dropout")
    print("  5. 在 PyTorch 2.0+ 中通过 F.scaled_dot_product_attention 使用")

    # PyTorch 2.0+ 的内置 Flash Attention
    import torch
    import torch.nn.functional as F

    Q = torch.randn(2, 128, 64, device='cuda')  # 需要 CUDA
    K = torch.randn(2, 128, 64, device='cuda')
    V = torch.randn(2, 128, 64, device='cuda')

    # 使用 Flash Attention（自动选择最优后端）
    # output = F.scaled_dot_product_attention(Q, K, V, is_causal=True)
    print("  使用方式: F.scaled_dot_product_attention(Q, K, V)")

explain_flash_attention()

Grouped Query Attention (GQA) 和 Multi-Query Attention (MQA)

import torch
import torch.nn as nn

def explain_gqa_mqa():
    """GQA 和 MQA 的推理优化

    在自回归推理（如 GPT）中，KV Cache 是主要的显存瓶颈。
    每个 token 的 K 和 V 需要缓存，占用大量显存。

    标准多头注意力（MHA）：每个头有独立的 K 和 V
    - KV Cache 大小：2 * num_heads * d_k * seq_len * batch_size

    Multi-Query Attention (MQA)：所有头共享一组 K 和 V
    - KV Cache 减少到 1/num_heads
    - 推理速度显著提升
    - 缺点：质量可能下降

    Grouped Query Attention (GQA)：折中方案
    - 将 query heads 分为组，每组共享一组 K 和 V
    - MQA 是 GQA 的特例（group_size = num_heads）
    - MHA 是 GQA 的特例（group_size = 1）
    - LLaMA 2/3、Mistral 等主流模型都使用 GQA

    参数量对比（假设 d_model=4096, num_heads=32, d_k=128）：
    - MHA: 32 个 K 头 + 32 个 V 头
    - GQA-8: 8 个 K 头 + 8 个 V 头（每 4 个 Q 头共享 1 组 KV）
    - MQA: 1 个 K 头 + 1 个 V 头
    """
    configs = {
        "MHA (32 heads)": {"num_kv_heads": 32, "cache_ratio": "1.0x"},
        "GQA (8 groups)": {"num_kv_heads": 8, "cache_ratio": "0.25x"},
        "GQA (4 groups)": {"num_kv_heads": 4, "cache_ratio": "0.125x"},
        "MQA (1 group)":  {"num_kv_heads": 1, "cache_ratio": "0.031x"},
    }

    print("KV Cache 大小对比 (num_heads=32):")
    for name, cfg in configs.items():
        print(f"  {name:20s}: KV 头数={cfg['num_kv_heads']:>3d}, Cache 大小={cfg['cache_ratio']:>8s}")

explain_gqa_mqa()

因果掩码（Causal Mask）

import torch
import torch.nn.functional as F

def create_causal_mask(seq_len):
    """创建因果掩码

    因果掩码用于自回归生成（GPT 等解码器模型），
    确保当前位置只能关注之前的位置（包括自身），
    不能"偷看"未来的信息。

    形状为 (seq_len, seq_len) 的下三角矩阵：
    位置 0 只能看位置 0
    位置 1 能看位置 0, 1
    位置 i 能看位置 0, 1, ..., i
    """
    mask = torch.tril(torch.ones(seq_len, seq_len))
    return mask

def demonstrate_causal_mask():
    """演示因果掩码的效果"""
    seq_len = 5
    mask = create_causal_mask(seq_len)
    print("因果掩码 (下三角):")
    print(mask.int())

    # 模拟注意力分数
    scores = torch.randn(1, seq_len, seq_len)
    masked_scores = scores.masked_fill(mask == 0, float('-inf'))
    weights = F.softmax(masked_scores, dim=-1)
    print("\n因果注意力权重（每行只关注左边的位置）:")
    print(weights[0])

demonstrate_causal_mask()

位置编码

import torch
import torch.nn as nn
import math

class PositionalEncoding(nn.Module):
    """正弦位置编码（原始 Transformer 的方案）

    自注意力本身不具备位置感知能力——交换输入序列中任意两个位置的
    token，注意力输出也会相应交换（置换等变性）。

    位置编码通过为每个位置添加一个唯一的向量来注入位置信息。

    正弦位置编码的公式：
    PE(pos, 2i)   = sin(pos / 10000^(2i/d_model))
    PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

    优点：
    - 不需要学习，可以外推到训练时未见过的序列长度
    - 不同频率的正弦波编码不同粒度的位置关系

    现代替代方案：
    - 可学习位置编码（BERT、ViT）
    - 旋转位置编码 RoPE（LLaMA、PaLM）
    - ALiBi（BLOOM）
    """
    def __init__(self, d_model, max_len=5000):
        super().__init__()
        pe = torch.zeros(max_len, d_model)
        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        self.register_buffer('pe', pe.unsqueeze(0))

    def forward(self, x):
        return x + self.pe[:, :x.size(1)]

pe = PositionalEncoding(d_model=64, max_len=100)
x = torch.randn(2, 10, 64)
out = pe(x)
print(f"位置编码: {x.shape} + {pe.pe[:, :10].shape} = {out.shape}")

# RoPE（旋转位置编码）简介
def explain_rope():
    """RoPE (Rotary Position Embedding) 简介

    RoPE 通过旋转矩阵将位置信息编码到 Q 和 K 中：
    - 在查询向量的每一对分量上应用旋转
    - 旋转角度与位置成正比
    - 两个位置 i, j 之间的相对位置只取决于角度差 (i-j)

    优势：
    - 天然编码相对位置关系
    - 可以外推到更长的序列
    - LLaMA、PaLM、Qwen 等主流模型都使用 RoPE

    与正弦位置编码的区别：
    - 正弦位置编码是加性的（x + PE(pos)）
    - RoPE 是乘性的（将 Q 和 K 旋转后做点积）
    """
    print("RoPE 的核心思想:")
    print("  通过旋转矩阵将位置信息注入 Q 和 K")
    print("  相对位置关系通过角度差自然编码")
    print("  支持序列长度外推")

explain_rope()

优点

1.全局建模能力 — 每个位置可以直接关注序列中任何其他位置，突破 RNN 的逐步传递限制
2.并行计算 — 自注意力的所有位置可以同时计算，充分利用 GPU 并行能力
3.灵活的注意力模式 — 不同层和不同头可以学习关注不同类型的关系
4.广泛适用 — 已成功应用于 NLP、CV、语音、蛋白质结构预测等多个领域

缺点

1.二次复杂度 — 标准自注意力对序列长度的计算和内存复杂度为 O(n^2)，长序列成本极高
2.位置信息缺失 — 自注意力本身不具备位置感知，必须额外添加位置编码
3.小数据场景过拟合 — 注意力参数量大，数据不足时容易学习到噪声关联
4.可解释性有局限 — 注意力权重不等于因果解释，高权重不一定意味着真正依赖

总结

注意力机制是现代深度学习的核心组件，从 Bahdanau 注意力到 Transformer 的多头自注意力，再到 Flash Attention 等高效实现，理解注意力的原理和变体是掌握当代 AI 技术的必经之路。

注意力机制的发展趋势可以总结为：从标准注意力到高效注意力（Flash Attention、稀疏注意力、线性注意力），从多头注意力到分组查询注意力（GQA、MQA），从绝对位置编码到相对位置编码（RoPE、ALiBi）。每一次改进都旨在保持或提升模型质量的同时，降低计算和内存开销。

关键知识点

缩放因子 1/sqrt(d_k) 的作用是防止点积值过大导致 softmax 梯度消失
多头注意力的每个头在独立的子空间中计算注意力，最后拼接并线性投影
因果掩码（Causal Mask）在解码器中用于防止当前位置关注未来信息
Flash Attention 通过分块计算和 IO 感知优化，在不改变数学结果的情况下大幅加速
位置编码是自注意力的必要补充，正弦编码、可学习编码和 RoPE 各有优劣
GQA 和 MQA 通过共享 KV 头来减少推理时的 KV Cache 显存占用

项目落地视角

使用 Flash Attention 2 加速训练和推理，特别是序列长度超过 2048 的场景
注意 KV Cache 对推理显存的影响，长上下文场景需要 PagedAttention 等优化
交叉注意力常用于多模态任务（图文匹配、视觉问答）和检索增强生成

KV Cache 管理实战

def analyze_kv_cache_memory():
    """KV Cache 显存分析

    在自回归推理中，每生成一个新 token，都需要用到之前所有 token 的 K 和 V。
    为了避免重复计算，这些 K 和 V 被缓存起来，称为 KV Cache。

    KV Cache 的显存占用计算：
    memory = 2 * num_layers * num_kv_heads * d_k * seq_len * batch_size * bytes_per_param

    其中 bytes_per_param 取决于精度：
    - FP16: 2 bytes
    - FP32: 4 bytes
    - INT8: 1 byte（量化后）
    """
    configs = [
        {"name": "LLaMA-7B", "layers": 32, "kv_heads": 32, "d_k": 128, "precision": 2},
        {"name": "LLaMA-70B-GQA", "layers": 80, "kv_heads": 8, "d_k": 128, "precision": 2},
        {"name": "GPT-4 (估计)", "layers": 120, "kv_heads": 8, "d_k": 128, "precision": 2},
    ]

    print("KV Cache 显存占用 (batch_size=1):")
    for cfg in configs:
        for seq_len in [2048, 8192, 32768, 128000]:
            mem_bytes = (2 * cfg["layers"] * cfg["kv_heads"] * cfg["d_k"]
                        * seq_len * 1 * cfg["precision"])
            mem_gb = mem_bytes / (1024 ** 3)
            print(f"  {cfg['name']:20s} seq={seq_len:>6d}: {mem_gb:>8.2f} GB")
        print()

analyze_kv_cache_memory()

常见误区

认为注意力权重可以完全解释模型决策——注意力只是相关性的度量，不是因果解释
在长序列场景直接用标准注意力而不考虑稀疏注意力或线性注意力替代方案
忽略位置编码的作用，导致模型无法区分相同 token 在不同位置的语义
在推理时不使用 KV Cache，导致每个 token 的生成都需要重新计算整个序列的注意力
混淆自注意力（Q=K=V）和交叉注意力（Q 来自一个序列，K/V 来自另一个序列）的使用场景

进阶路线

学习 Flash Attention 的分块计算原理，理解硬件感知的算法设计思路
探索稀疏注意力（Longformer、BigBird）和线性注意力（Linformer、Performers）
理解 Grouped Query Attention (GQA) 和 Multi-Query Attention (MQA) 如何优化推理
研究 Mixture of Experts (MoE) 与注意力机制的结合
深入学习 vLLM 的 PagedAttention 如何实现高效的 KV Cache 管理
探索 Ring Attention 等分布式注意力计算方案

适用场景

需要建模长距离依赖的 NLP 任务（翻译、摘要、问答）
多模态任务中不同模态之间的信息交互
检索增强生成（RAG）中的查询-文档匹配
Vision Transformer 中的图像 patch 间交互
语音识别和语音生成中的时序建模

落地建议

优先使用 Flash Attention 实现，在不改变结果的前提下大幅节省显存和加速计算
监控推理时的 KV Cache 显存占用，合理设置最大序列长度
在注意力层添加 dropout（0.1~0.3）防止过拟合
使用 GQA 或 MQA 优化推理时的显存和速度

排错清单

注意力输出出现 NaN：检查 Q/K/V 是否归一化，除以 sqrt(d_k) 是否正确
训练显存溢出：减少序列长度、减少 batch_size 或启用 Flash Attention
推理速度慢：检查 KV Cache 是否启用，GQA 是否配置正确
因果掩码不生效：检查掩码的形状和方向是否正确
位置编码超出范围：确保推理时的序列长度不超过位置编码的最大长度

复盘问题

你的模型中使用了哪种注意力变体？选择它的理由是什么？
在推理场景中，KV Cache 的显存占用是否是瓶颈？是否考虑过 GQA 或 MQA？
注意力权重的可视化结果是否符合直觉？是否有异常关注的模式？
序列长度增长时，显存和速度的变化是否符合预期？