> For the complete documentation index, see [llms.txt](https://yeasy.gitbook.io/llm_internals/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://yeasy.gitbook.io/llm_internals/di-yi-bu-fen-ji-chu-pian/02_attention.md).

# 第二章：注意力机制：为什么它是核心

注意力机制是 Transformer 架构的灵魂。如果说 Transformer 是一座建筑，那么注意力机制就是支撑整个结构的钢筋骨架——理解它的每一个设计细节，是真正掌握 Transformer 的基础。

上一章介绍了注意力机制的诞生背景，本章将深入其内部运作原理。不仅会给出数学公式，更重要的是解释每一个设计选择背后的直觉与动机：查询-键-值的三元组为什么这样设计？缩放因子 $$\sqrt{d\_k}$$ 解决了什么数学问题？多头注意力为什么比单头更强大？因果掩码为什么是生成任务的必需品？注意力的 $$O(n^2)$$ 复杂度意味着什么、又如何应对？
