> For the complete documentation index, see [llms.txt](https://yeasy.gitbook.io/llm_internals/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://yeasy.gitbook.io/llm_internals/di-san-bu-fen-tui-li-yu-bu-shu-pian/11_serving.md).

# 第十一章：推理引擎与生产部署

将推理优化技术整合为完整的推理服务是从研究到产品的关键一步。本章介绍现代推理引擎的架构设计、连续批处理与 PagedAttention 的工作原理、分离式 Prefill-Decode 架构的前沿探索、硬件平台的选择考量，以及生产部署的最佳实践。
