LLM 2025.05.28

大语言模型的上下文窗口机制 Context Window Mechanism in LLMs

梳理了 Transformer 架构中的注意力机制，以及不同模型处理长上下文时的技术方案。

A walkthrough of the attention mechanism in Transformers and technical approaches for long-context handling.

注意力机制基础

Transformer 的核心是自注意力（Self-Attention）机制，它允许模型在处理每个 token 时关注序列中的所有其他 token。

注意力计算公式：

$$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$

标准 Transformer 的注意力计算复杂度为 $O(n^2)$，当序列长度增加时，计算和内存开销急剧上升。

关键洞察：长上下文不等于长记忆，模型在长序列中仍存在”迷失在中间”的问题。