不必盲信的 AI OCR
space-ocr 用 LLM 把文档结构化,再把每个值与页面上真实的 OCR 符号比对验证。每个值都被定位,并带一个你可以核对的 match_ratio。
AI OCR 听起来像是杂乱文档的答案:把一张票据或发票交给模型,拿回干净的结构化字段。问题在于模型出错时会怎样。语言模型不论是否真的从页面上读到,都会返回一个自信、格式工整的值,而大多数工具把这个值交给你时,没有让你分辨真假的办法。
space-ocr 走更严格的路线。结构化由 LLM 来做,但它说了不算。模型返回每个值,以及它认为用到的 word-token id;引擎随后把这个值与 Google Vision 在页面上真实检测到的符号逐字比对,用一个框把它定位,并为匹配程度打分。所以 AI 是流程的一部分,而不是流程的裁判。它产出的每个值,你都能核对。
看一次被核对过的 AI 输出
把鼠标悬停在下方任意字段上——票据上的框是这个值在页面上真正被找到的位置,而不是模型声称的位置。这里的每个值、框和匹配分数,都直接读自一次真实的解析结果,而不是摆拍。

Each value with a box carries a verified on-page location — bbox + 4-point vertices + match_ratio — on a 0–1000 normalized grid (0,0 top-left → 1000,1000 bottom-right), the same shape the live API returns. Hover a field to trace it back to the pixels it came from.
space-ocr 里的 AI OCR 如何工作
上传一张图片,LLM 把文档读成结构化字段,每个值连同它用到的 word-token id 一起返回。在它送到你手里之前,CharMatcher 接过这个值,把字符与 Google Vision 在页面上检测到的符号比对,生成框、带方向的顶点和 match_ratio。如果模型给了 token id,引擎会查那些 Vision 词框,并可把字段的 source 覆盖为 token_id——但对重复值的列,它依靠列聚类和行一致性,因为模型的 token 提示在那里可能出错。
你不必写 schema。传一个内置 templateId,比如 receipt 或 invoice,定义你自己的 fields,或打开 autoFields 让模型提出结构。Web 应用会先把 PDF 逐页栅格化,公开 API 直接接收栅格图像(JPEG、PNG、GIF、BMP、TIFF、WebP)。
curl -s https://api.space-ocr.com/ocr/fields \
-H "Authorization: Bearer $SPACE_OCR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"image": "https://example.com/receipt.jpg",
"imageType": "url",
"templateId": "receipt"
}'如何运行可验证的 AI OCR
- 发送一份文档把图片发送到 /ocr/fields(url 或 base64)。在应用里你可以拖入 PDF,每一页会先被栅格化。公开 API 接收栅格图像。
- 让 AI 来结构化传一个内置 templateId,定义你自己的 fields,或打开 autoFields 让模型提出 schema。LLM 返回每个值以及它用到的 word-token id。
- 读取被核对过的结果每个值连同它的 bbox、vertices、match_ratio 和 bbox_source 一起返回,还有一个定位页面上每个字段的 field_bboxes 映射——与页面比对验证过的 AI 输出。
- 核对低分值点击单元格即可高亮它被读取的确切区域;低于 0.85 的 match_ratio 会标出值得复核的值。你的修改会保存在原始 OCR 值旁边。
- 导出或查询下载 CSV(UTF-8 BOM,明细行已展开),或用 GET /view 配合 where、sort、select 查询已存储的表格——无需重跑 OCR,也不额外收费。
简单、可预期的定价
每张图片 $0.05(¥10 / ₩100),含每月 100 次扫描的免费额度,无需信用卡。套餐计划增加每月扫描数、更多表格和存储空间。