DeepSeek大范围开放了识图模式 DeepSeek之前灰度测试的“识图模式”

DeepSeek大范围开放了识图模式

DeepSeek之前灰度测试的“识图模式”，现在已经大范围开放体验内测。

识图的难点，不是把图片里的字抠出来。OCR只是第一步，真正难的是让模型看懂画面里的对象、位置、关系和意图。比如一张电路板图、一张报表截图、一张车机界面故障图，模型要知道哪里是主体，哪个细节异常，用户真正想问什么，还要把视觉信息和语言推理接上。

这也是DeepSeek开放识图的意义。大模型只会处理文字，入口就卡在“用户描述得清楚”这一步；能看图之后，很多问题可以直接丢现场材料。截图、图表、照片、作业题、产品说明、故障界面，都能变成输入。

AI助手要离真实工作更近，迟早得学会看图说话，这才叫多模态交互~

DC娱乐网