# 第一章：从序列建模到 Transformer

自然语言是人类最重要的信息载体，而语言的本质特征之一是**序列性**——词语的顺序承载着意义。如何让机器理解和生成这种有序的、变长的符号序列，是自然语言处理（Natural Language Processing，NLP）领域的核心问题。

这一问题的求解之路，恰好勾勒出深度学习最激动人心的一段技术史：从循环神经网络（RNN）的串行处理，到长短期记忆网络（LSTM）对梯度消失的突破，再到注意力机制让模型学会“看哪里”，最终汇聚为 Transformer 架构的横空出世。每一步创新都并非凭空而来，而是为了解决前一代方案的根本缺陷。

本章将追溯这一演进脉络，帮助读者理解：为什么 Transformer 的设计是这样的？它解决了什么前人无法解决的问题？以及，为什么它能如此迅速地取代此前所有主流架构？
