“鲸鱼睁眼”DeepSeek识图模式大范围开放，正式跨入图文交互时代

4月底，用户发现DeepSeek的界面里悄悄多出了一个“识图模式”入口，光标移上去会弹出“图片理解功能内测中”的提示。到5月9日，DeepSeek已大范围开放该功能，多数测试账号均可使用——那个曾经只懂文字的国产大模型“尖兵”，终于睁开了“眼睛”。

一路在文本、代码和推理能力上卷到第一梯队的DeepSeek，视觉能力一直是其最明显的短板。“真实世界里的问题并不总是以文字形式出现，它们可能是一张照片、一页论文图表、一个网页截图，也可能是一个需要理解空间关系和视觉细节的现实场景。”

01 鲸鱼睁眼：4月底灰测，5月大范围开放

4月29日前后，部分用户发现DeepSeek的网页端和App端开始出现“识图模式”入口，该入口与“快速模式”“专家模式”并列，被定位为一等核心能力。

当晚，DeepSeek多模态团队负责人陈小康在社交平台发文“Now，we see you”，配图中DeepSeek标志性的鲸鱼logo摘下眼罩露出了眼睛，被广泛视为官方对多模态能力上线的确认。

到5月9日，DeepSeek大范围开放了该功能的访问权限，多数测试账号已可使用，输入框上方与“快速”“专家”模式并列的独立入口清晰可见。

02 技术突破：给模型加上“手指”，精准“指向”

DeepSeek的识图能力绝非普通的OCR文字识别，而是一种基于多模态理解的原生视觉能力——能真正理解图片里有什么、画面中在发生什么。

在功能开启的同时，DeepSeek在GitHub上发布了一篇革命性的技术论文《Thinking with Visual Primitives》（以视觉原语思考）。

DeepSeek的解法堪称精妙：它不再将点和框作为输出的后缀，而是在推理过程中将其嵌入思维链本身。模型在推理时能够一边“想”一边“指”，将抽象的语言指向到具体空间坐标，像人类一样用“指尖”消除歧义，实现精准的空间感知。

技术数据显示，这套架构实现了7056倍的视觉压缩效率，一张756×756的图片处理后仅需81个视觉KV条目，同等尺寸下Claude Sonnet 4.6约需870个。

03 看得见、读得懂、能推理：实测惊艳登场

“识图模式”灰度开放后，用户们的脑洞实测迅速铺开，展示了这项功能在日常场景中的强大能力。

有用户拍下公司附近的街景照片上传，DeepSeek几乎能准确认出每一栋建筑的名称，并在思考过程中调用世界知识完成判断，过程中并未开启联网搜索功能。

还有用户测试它的网页复刻能力，上传页面截图后，DeepSeek能准确读懂布局结构，生成接近真实效果的网页demo。有网友表示，这种感觉就像AI不只是“看见”，而是在“思考”——这对设计师和产品经理来说，让想法验证的周期大幅缩短。

04 从“读字”到“识物”：多模态已成标配能力

DeepSeek识图模式的大范围开放，反映出国产大模型竞争的重心，正在从比拼单一的文本生成能力，转变为对“全感官信息”的全面理解。从“看字”到“识物”的跨越，将极大拓宽AI的应用边界。

与此同时，深度集成DeepSeek V4多模态能力的企业智能体中台已覆盖政务、金融、制造等全链业务场景。

DeepSeek团队对多模态能力的定位与主流路径有所不同：它不仅仅将视觉理解作为输入接口，而是将视觉能力与推理深度融合，让视觉语言模型以更低的成本实现更高的实际场景理解效率，而非盲目追求评测榜单上的排名。

从4月底的小范围灰测到5月9日的大范围开放，DeepSeek仅用不到两周的时间就完成了关键跨越。这场“视觉进化”的效率与深度，再次展现了这家国产AI“尖兵”的风格——当那些依赖多模态参数刷榜的对手还在炫技时，它已经用“工程思维”让大模型变成了一双实用的“眼睛”。从文本到图像，从对话到交互，AI的体验确实变了一个维度。

与此同时，一个标志性的预告信号也已出现：在DeepSeek客户端模型选择栏中，“快速”“专家”“视觉”三个选项并列——“视觉”选项正是为接下来即将上线的满血多模态版V4预留的接口。

DC娱乐网

“鲸鱼睁眼”DeepSeek识图模式大范围开放，正式跨入图文交互时代

热门分类