DC娱乐网

技术博客 速度:大模型推理的下一个 Scaling Law -- 深度解析 Ti

技术博客 速度:大模型推理的下一个 Scaling Law -- 深度解析 TileRT 高性能推理引擎及 GLM-5.1 生产级实践地址:www.tilert.ai/blog/speed-as-the-next-scaling-law-zh.html

今日智谱面向部分企业客户提供GLM-5.1高速版API“GLM-5.1-highspeed”,其模型输出速度达到400 tokens/s,这篇文章就是其背后用到的技术解析。TileRT和智谱合作出品。AI创造营