dots.ocr:3B参数级多语言OCR与文档解析SOTA模型,支持100+语言,商业可用
• 单一端到端模型实现文档布局检测与内容识别,涵盖文本、表格(HTML格式)、公式(LaTeX格式)等,输出结构化Markdown,保持原文顺序
• 基于紧凑1.7B LLM架构,性能超越Mistral OCR等同类模型,尤其在多语种和复杂版式解析表现优异
• 统一架构简化传统多模型流水线,任务切换仅需调整输入prompt,支持vLLM高效部署推理
• 支持PDF及图片解析,提供丰富示例与演示(表格、公式、多语种、阅读顺序、定位OCR)
• 目前对复杂表格与公式的精度仍有提升空间,未来计划扩展图像内容解析及更高吞吐量能力
• 开源MIT协议,欢迎企业和研究者基于此推动文档智能前沿,体验地址👉 huggingface.co/rednote-hilab/dots.ocr,在线演示👉 huggingface.co/spaces/MohamedRashad/Dots-OCR
OCR 文档解析 多语言AI 视觉语言模型 人工智能