【名字只写YY藏伏笔？百度新开源OCR，吃瓜停不下来】百度最近真的有点不一样

2026-06-23 18:03:11 是李艺鹏国际

【名字只写YY藏伏笔？百度新开源OCR，吃瓜停不下来】

百度最近真的有点不一样，6月22号一大早，一个叫Unlimited OCR的模型悄悄挂上了HuggingFace和GitHub，百度出品，直接开源，但圈内人读完技术报告全在问同一个问题：作者名单里那个叫“YY†”的技术总监，到底是谁？

报告的核心贡献者列了三个人。前两位Youyang Yin和Huanhuan Liu，用的都是真名，很正常。唯独技术总监的位置，只挂了“YY”两个字母。在一篇正经技术报告里，这种操作属实不多见，反而像故意留的扣子。

再往下翻GitHub的致谢栏，更有意思了。排在最前面的两个致谢对象，是DeepSeek-OCR和DeepSeek-OCR-2。一个新模型开源，把另一个公司的项目放在这么显眼的位置感谢，这关系肯定不一般。顺着这条线往回看，DeepSeek OCR从一代到二代，核心作者始终就是那几个人，一个小团队从零做起来的。国内OCR圈子本来就不大，能做出这种级别突破、还对DeepSeek OCR架构有亲手做过级别熟悉的，一只手数得过来。

更微妙的是整篇报告的写法。上来不讲性能不讲指标，直接从认知层面切入、故事感拉满的行文风格，以前基本是DeepSeek技术报告的招牌特征。再加上今年4月DeepSeek-V4报告末尾那10个带星号的离职名字，有些线索好像慢慢对上了。

当然，YY到底是谁，现在没人能给结论，纯属猜测。

但模型本身确实挺有想法的。它解决的问题是：为什么现在OCR一次只能处理几页文档？因为传统做法是逐页扫描、每页清零记忆，相当于不断重启。Unlimited OCR的思路是模拟人类的工作记忆状态，用了一种叫参考滑动窗口注意力的机制，显存始终保持恒定，不会越跑越胀，一次前向推理就能转录几十页文档。

百度这波操作，从开源节奏到人才布局都透着一股新气象。文心后面还有啥动作，值得蹲一蹲。