SmolDocling-256M-preview 是一款多模态图像-文本到文本模型,提供高效文档转换,能够在消费级 GPU 上以低于 500MB 的显存需求,在 0.35 秒内处理一页文档,速度极快,完全兼容 Docling,支持 DoclingDocuments,保留了 Docling 的核心功能。

SmolDocling-256M-preview核心功能

DocTags:采用高效的文档表示方法,清晰分离文本与文档结构,兼容 DoclingDocuments。

OCR:从图像中精准提取文本内容。

布局与定位:保留文档结构及元素边界框。

代码识别:自动检测并格式化代码块,包括缩进。

公式识别:识别并处理数学表达式。

图表识别:提取并解析图表数据。

表格识别:支持列与行标题,实现结构化表格提取。

图像分类:区分不同类型的图形元素。

标题对应:将标题与相关图像、图形关联。

列表分组:正确组织并结构化列表内容。

整页转换:处理页面中的所有元素,包括代码、公式、表格、图表等。

带边界框的 OCR:通过边界框识别 OCR 区域。

通用文档处理:适用于科学与非科学文档。

无缝 Docling 集成:支持导入 Docling 并导出为多种格式(如 MD、HTML)。

快速推理:基于 VLLM 技术,在 A100 GPU 上平均每页处理时间仅 0.35 秒。

SmolDocling-256M-preview 通过多模态能力与高效处理性能,为文档转换提供服务,适用于多种场景需求。