AI OCR

不必盲信的 AI OCR

space-ocr 用 LLM 把文档结构化，再把每个值与页面上真实的 OCR 符号比对验证。每个值都被定位，并带一个你可以核对的 match_ratio。

AI OCR 听起来像是杂乱文档的答案：把一张票据或发票交给模型，拿回干净的结构化字段。问题在于模型出错时会怎样。语言模型不论是否真的从页面上读到，都会返回一个自信、格式工整的值，而大多数工具把这个值交给你时，没有让你分辨真假的办法。

space-ocr 走更严格的路线。结构化由 LLM 来做，但它说了不算。模型返回每个值，以及它认为用到的 word-token id；引擎随后把这个值与 Google Vision 在页面上真实检测到的符号逐字比对，用一个框把它定位，并为匹配程度打分。所以 AI 是流程的一部分，而不是流程的裁判。它产出的每个值，你都能核对。

看一次被核对过的 AI 输出

把鼠标悬停在下方任意字段上——票据上的框是这个值在页面上真正被找到的位置，而不是模型声称的位置。这里的每个值、框和匹配分数，都直接读自一次真实的解析结果，而不是摆拍。

Receipts with extracted-field bounding boxes

Verified fields

KINSHO · 合計 2,045

ライフ · 合計 4,286

Each value with a box carries a verified on-page location — bbox + 4-point vertices + match_ratio — on a 0–1000 normalized grid (0,0 top-left → 1000,1000 bottom-right), the same shape the live API returns. Hover a field to trace it back to the pixels it came from.

AI 输出与页面比对验证

LLM 返回的只是每个值和它用到的 word-token id——绝不是坐标。CharMatcher 先运行，把这个值与 Vision 真实检测到的符号逐字比对。

每个值都被定位并打分

每个字段返回一个边界框（0–1000 网格上的 xmin/ymin/xmax/ymax）、四个带方向的顶点和一个 match_ratio。0.85 及以上是可信匹配，1.0 表示每个字符都被找到。

模板或自动字段，无需 schema

套用内置 templateId（如 receipt 或 invoice），定义你自己的字段，或打开 autoFields 让模型提出 schema。常见文档不必写 schema。

审计轨迹：原始与修改

当你修正一个单元格时，修改会保存在原始 OCR 值旁边，而不是覆盖它——AI 读到了什么、人改了什么，都留在记录里。

模型造不了假的明细行

重复值的列不会被盲信，而是用列一致性和行一致性来验证。模型把相邻两行调换这种错误，会在导出前被抓住。

语言自动识别

日语、韩语、中文、英文在一个引擎里，混合文字也能处理——无需设置语言提示。模型和匹配器都能跨文字工作。

space-ocr 里的 AI OCR 如何工作

上传一张图片，LLM 把文档读成结构化字段，每个值连同它用到的 word-token id 一起返回。在它送到你手里之前，CharMatcher 接过这个值，把字符与 Google Vision 在页面上检测到的符号比对，生成框、带方向的顶点和 match_ratio。如果模型给了 token id，引擎会查那些 Vision 词框，并可把字段的 source 覆盖为 token_id——但对重复值的列，它依靠列聚类和行一致性，因为模型的 token 提示在那里可能出错。

你不必写 schema。传一个内置 templateId，比如 receipt 或 invoice，定义你自己的 fields，或打开 autoFields 让模型提出结构。Web 应用会先把 PDF 逐页栅格化，公开 API 直接接收栅格图像（JPEG、PNG、GIF、BMP、TIFF、WebP）。

结构化文档，并核对每个值

curl -s https://api.space-ocr.com/ocr/fields \
  -H "Authorization: Bearer $SPACE_OCR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "image": "https://example.com/receipt.jpg",
    "imageType": "url",
    "templateId": "receipt"
  }'

如何运行可验证的 AI OCR

发送一份文档
把图片发送到 /ocr/fields（url 或 base64）。在应用里你可以拖入 PDF，每一页会先被栅格化。公开 API 接收栅格图像。
让 AI 来结构化
传一个内置 templateId，定义你自己的 fields，或打开 autoFields 让模型提出 schema。LLM 返回每个值以及它用到的 word-token id。
读取被核对过的结果
每个值连同它的 bbox、vertices、match_ratio 和 bbox_source 一起返回，还有一个定位页面上每个字段的 field_bboxes 映射——与页面比对验证过的 AI 输出。
核对低分值
点击单元格即可高亮它被读取的确切区域；低于 0.85 的 match_ratio 会标出值得复核的值。你的修改会保存在原始 OCR 值旁边。
导出或查询
下载 CSV（UTF-8 BOM，明细行已展开），或用 GET /view 配合 where、sort、select 查询已存储的表格——无需重跑 OCR，也不额外收费。

简单、可预期的定价

每张图片 $0.05（¥10 / ₩100），含每月 100 次扫描的免费额度，无需信用卡。套餐计划增加每月扫描数、更多表格和存储空间。

Free

100 次扫描/月
3 表格
1 GB 存储

免费 — 无需信用卡

Starter

$19/月

400 次扫描/月
10 表格
10 GB 存储

免费开始

最受欢迎

Pro

$49/月

1,100 次扫描/月
无限表格
100 GB 存储

免费开始

这套 AI OCR 和一个只返回 JSON 的模型有什么不同？

结构化由 LLM 来做，但它说了不算。模型返回每个值以及它用到的 word-token id，引擎随后把这个值与 Google Vision 在页面上真实检测到的符号逐字比对。每个值都带一个框和一个 match_ratio，所以你是在核对 AI，而不是信任它。

坐标是 AI 返回的吗？

不是。LLM 返回的是值和它用到的 word-token id，而不是坐标。CharMatcher 先运行，把字符与已检测到的符号比对，生成边界框、带方向的顶点和 match_ratio。token id 是次要的覆盖，对重复值的列，引擎会改用列和行的一致性来验证而不是信任它们。

我怎么判断某个值能不能信？

看它的 match_ratio。它是页面上找到的预期字符的比例（0.0–1.0）。0.85 及以上是可信匹配，1.0 表示每个字符都被找到。低于 0.85 会被标出，提示你再看一眼。我们不报准确率百分比，而是给你逐值的分数。

可以让 AI 替我提出字段吗？

可以。打开 autoFields，模型会为文档提出一个 schema；或者传一个内置 templateId，如 receipt、invoice、delivery、business_card、driver_license，或定义你自己的字段——明细行用带 children 的 array 字段。

我修改 AI 的输出后，原始值会怎样？

你的修改会保存在原始 OCR 值旁边，而不是覆盖它。AI 的读取和人的修正都留在记录里，所以表格有一条可回溯的审计轨迹。CSV 导出是 UTF-8 BOM（Excel 与中日韩安全），明细行展开为子行。

多少钱？

每张图片 $0.05（¥10 / ₩100），含每月 100 次扫描的免费额度，无需信用卡。套餐计划（Starter 和 Pro）增加每月扫描数、更多表格和存储——见上方的计划。

把 AI 用在你的文档上，但不盲信它

免费额度——每月 100 次扫描，无需信用卡。模型产出的每个值都连同定位和分数一起返回。

免费开始 API 文档