
Chunked-Prefills 分块预填充机制详解
文章介绍了大模型推理中 prefill 与 decode 阶段在资源利用上的差异所带来的调度挑战,并回顾了从 Static Batching 到 Continuous Batching 的策略演进。为解决传统静态或迭代调度中存在的资源浪费与延迟问题,Sarathi-Serve 提出了 chunked-prefills 和 stall-free scheduling 机制,通过将长 prompt 拆分为多个小块,并与 decode 请求混合调度,从而实现高吞吐与低延迟的平衡。