对标 vLLM 的 Continuous Batching:用 C++20 协程设计高性能 AI 推理引擎的异步通道 发布时间:2026/5/25 16:09:28 如果你在生产环境写过 AI 推理服务的 Dynamic Batching 逻辑——就是那种"收集一批请求、凑够一个 batch、扔给 GPU 推理、再把结果分发回各个请求"的流程——你大概率见过类似这样的代码:voidInferenceService::handleRequest(Request req,Callback cb){batch_queue_.push(req,[this/