如果你在做推理部署,强烈推荐了解一下vLLM的最新版。支持了speculative decoding,推理速度提升50%以上,显存占用反而降了。
比TGI和Triton Inference Server好用不是一点半点。开源而且社区活跃,文档也终于跟上了。
AI 推理 开源工具
如果你在做推理部署,强烈推荐了解一下vLLM的最新版。支持了speculative decoding,推理速度提升50%以上,显存占用反而降了。
比TGI和Triton Inference Server好用不是一点半点。开源而且社区活跃,文档也终于跟上了。
AI 推理 开源工具