仅解码器(Decoder-Only)的 Transformer 架构已成为当代大语言模型的绝对主流。本章深入剖析从 GPT 到 Llama、DeepSeek 的技术演进,以及编码器-解码器模型(T5、BART)的设计选择。
最后更新于3天前