DC娱乐网

如果你在做推理部署，强烈推荐了解一下vLLM的最新版。支持了speculativ

2026-06-11 11:31:21 昕仁聊汽车啊汽车

如果你在做推理部署，强烈推荐了解一下vLLM的最新版。支持了speculative decoding，推理速度提升50%以上，显存占用反而降了。

比TGI和Triton Inference Server好用不是一点半点。开源而且社区活跃，文档也终于跟上了。

AI 推理开源工具

阅读：0 点赞：0