# 第二章：注意力机制：为什么它是核心

注意力机制是 Transformer 架构的灵魂。如果说 Transformer 是一座建筑，那么注意力机制就是支撑整个结构的钢筋骨架——理解它的每一个设计细节，是真正掌握 Transformer 的基础。

上一章介绍了注意力机制的诞生背景，本章将深入其内部运作原理。不仅会给出数学公式，更重要的是解释每一个设计选择背后的直觉与动机：查询-键-值的三元组为什么这样设计？缩放因子 $\sqrt{d\_k}$ 解决了什么数学问题？多头注意力为什么比单头更强大？因果掩码为什么是生成任务的必需品？注意力的 $O(n^2)$ 复杂度意味着什么、又如何应对？
