dots.ocr:3B参数级多语言OCR与文档解析SOTA模型,支持100+语言

爱生活爱珂珂 2025-08-06 07:29:18

dots.ocr:3B参数级多语言OCR与文档解析SOTA模型,支持100+语言,商业可用

• 单一端到端模型实现文档布局检测与内容识别,涵盖文本、表格(HTML格式)、公式(LaTeX格式)等,输出结构化Markdown,保持原文顺序

• 基于紧凑1.7B LLM架构,性能超越Mistral OCR等同类模型,尤其在多语种和复杂版式解析表现优异

• 统一架构简化传统多模型流水线,任务切换仅需调整输入prompt,支持vLLM高效部署推理

• 支持PDF及图片解析,提供丰富示例与演示(表格、公式、多语种、阅读顺序、定位OCR)

• 目前对复杂表格与公式的精度仍有提升空间,未来计划扩展图像内容解析及更高吞吐量能力

• 开源MIT协议,欢迎企业和研究者基于此推动文档智能前沿,体验地址👉 huggingface.co/rednote-hilab/dots.ocr,在线演示👉 huggingface.co/spaces/MohamedRashad/Dots-OCR

OCR 文档解析 多语言AI 视觉语言模型 人工智能

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注