本章小结

推理引擎(vLLM、TensorRT-LLM 等)整合了所有推理优化技术,为多用户并发场景提供高效服务。

连续批处理通过在每个解码步动态添加和移除请求,消除了静态批处理中短请求等待长请求的浪费,将吞吐量提升 2-10 倍。

PagedAttention 借鉴操作系统的页式内存管理,将 KV 缓存划分为固定大小的页并按需分配,消除了内存碎片化,将显存利用率提升至 90-95%。

分离式架构(Disaggregated Serving)通过物理切分专门用于 Prefill 和 Decode 的计算集群,解决了计算密集型与访存密集型任务的资源请求冲突,实现了低延迟和高吞吐的兼顾。

硬件选择需匹配具体场景:GPU 是训练和推理的首选,TPU 适合 Google Cloud 上的大规模训练,CPU 适合成本敏感的边缘部署。

生产部署涉及模型量化、负载均衡、流式输出、请求调度和监控告警等多方面最佳实践。

至此,第三部分“推理与部署篇”结束。下一部分将梳理主流 Transformer 变体模型和前沿架构创新。

最后更新于