space ocr
指南文章价格文档
PDF OCR

把文档变成可核对数据的 PDF OCR

用 space-ocr 从 PDF 和扫描件中提取结构化数据:明细行、内置模板、CSV/JSON 导出,每个值都连同它在页面上的位置和匹配分数一起返回。

PDF 是数据藏身的地方。一张发票、一叠票据、一张送货单——数字明明就在页面上,但要进到表格里通常意味着重新录入。PDF OCR 承诺解决这件事:读文档,返回结构化字段。问题是,大多数工具止步于一个看似合理的猜测,剩下的就要你自己去信。

space-ocr 回答的是一个更严苛的问题。它把 PDF 变成结构化的行,并把每个值连同它在页面上被读取的确切位置一起返回——一个看得见的框,外加一个表示匹配程度的分数。所以你不必盲信提取结果,而是可以亲自核对。

看一次你可以亲自核对的真实提取

把鼠标悬停在下方任意字段上——票据上的框就是这个值被读取的位置。这里的每个数字、框和匹配分数,都直接读自一次真实的解析结果,而不是摆拍。

Receipts with extracted-field bounding boxes
Verified fields
KINSHO · 合計 2,045
ライフ · 合計 4,286

Each value with a box carries a verified on-page location — bbox + 4-point vertices + match_ratio — on a 0–1000 normalized grid (0,0 top-left → 1000,1000 bottom-right), the same shape the live API returns. Hover a field to trace it back to the pixels it came from.

每个值都有位置
每个字段返回一个边界框(0–1000 网格上的 xmin/ymin/xmax/ymax)、四个带方向的顶点和一个 match_ratio——数字可追溯到页面上的确切位置。
不只是合计,还有明细行
表格以可重复的行返回,每个单元格都带位置,即使一行换行或合并也能追踪。
内置模板
用一个 templateId 套用票据、发票、送货单、名片或证件模板——也可以定义你自己的字段。
干净的导出
带 UTF-8 BOM 的 CSV(Excel 与中日韩文本安全,明细行展开),以及带异步任务和签名 Webhook 的 REST API JSON。
语言自动识别
日语、韩语、中文、英文在一个引擎里——无需设置语言提示,混合文字也能处理。
手机照片也行
加载时应用 EXIF 旋转,框会跟随文档的倾斜,所以歪斜的扫描或照片也能对齐。

space-ocr 里的 PDF OCR 如何工作

把 PDF 拖进应用,每一页都会被渲染成图片,再被读取并转成结构化字段——一份多页 PDF 会变成一组可以排序、筛选、导出的行。如果你直接调用 API,请发送页面图片(公开 API 接收栅格图像——JPEG、PNG、GIF、BMP、TIFF、WebP),返回的结构化结果是一样的。

常见文档不必写 schema。传一个内置 templateId,比如 receiptinvoice,或者定义你自己的 fields——明细行用一个带 childrenarray 字段来描述一行。

从页面图片提取字段
1
2
3
4
5
6
7
8
curl -s https://api.space-ocr.com/ocr/fields \
  -H "Authorization: Bearer $SPACE_OCR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "image": "https://example.com/invoice-page-1.png",
    "imageType": "url",
    "templateId": "invoice"
  }'

如何对 PDF 做 OCR

  1. 添加你的 PDF
    在应用中拖入 PDF——每一页会被渲染成图片并排队 OCR。使用 API 时,把页面图片(url 或 base64)发送到 /ocr/fields。
  2. 选择模板或字段
    传一个内置 templateId,比如 'receipt' 或 'invoice',或提供你自己的 fields——明细行表格用带 children 的 array 字段。
  3. 读取结构化结果
    每个值连同它的 bbox、vertices、match_ratio 和 bbox_source 一起返回,还有一个定位页面上每个字段的 field_bboxes 映射。
  4. 随时核对
    点击单元格即可高亮它被读取的确切区域;低于 0.85 的 match_ratio 会标记出值得复核的值。编辑会保存在原始 OCR 值旁边。
  5. 导出或查询
    下载 CSV(UTF-8 BOM,明细行已展开),或用 GET /view 配合 where、sort、select 查询已存储的表格——无需重跑 OCR,也不额外收费。

简单、可预期的定价

每张图片 $0.05(¥10 / ₩100),含每月 100 次扫描的免费额度,无需信用卡。套餐计划增加每月扫描数、更多表格和存储空间。

Free
$0
  • 100 次扫描/月
  • 3 表格
  • 1 GB 存储
免费 — 无需信用卡
Starter
$19/月
  • 400 次扫描/月
  • 10 表格
  • 10 GB 存储
免费开始
最受欢迎
Pro
$49/月
  • 1,100 次扫描/月
  • 无限表格
  • 100 GB 存储
免费开始
我可以用 space-ocr 对 PDF 做 OCR 吗?
可以。Web 应用直接接受 PDF——它把每一页渲染成图片再做 OCR,所以多页 PDF 会变成结构化的行。公开 API 接收栅格图像(JPEG、PNG、GIF、BMP、TIFF、WebP),因此调用 API 时你发送页面图片。
PDF OCR 会保留每个值的位置吗?
会。每个提取出的值都连同一个边界框(0–1000 归一化网格上的 xmin/ymin/xmax/ymax)、跟随文档倾斜的四个顶点,以及一个 match_ratio 一起返回。match_ratio 达到 0.85 及以上视为可信匹配,1.0 表示每个字符都在页面上被找到。
它能从 PDF 提取表格和明细行吗?
能。把明细行作为 type 为 'array' 的字段来请求,其 children 描述一行(描述、数量、单价等)。每个单元格保留自己的边界框,所以换行或合并的明细行也能追溯到它的位置。
PDF OCR 的结果能导出成什么?
带 UTF-8 BOM 的 CSV(让 Excel 正确打开中日韩文本,明细行展开为子行),以及 REST API 的 JSON。你还可以用 GET /view 配合 where、sort、select 在服务器端查询已存储的表格——无需重跑 OCR,也不额外收费。
PDF OCR 多少钱?
每张图片 $0.05(¥10 / ₩100),含每月 100 次扫描的免费额度,无需信用卡。套餐计划(Starter 和 Pro)增加每月扫描数、更多表格和存储——见上方的计划。
它支持哪些语言?
语言识别是全自动的——日语、韩语、中文、英文在一个引擎里,包括混合文字、全角半角和竖排文本。你无需设置语言提示。

把你自己的 PDF 变成可核对的数据

免费额度——每月 100 次扫描,无需信用卡。每个值都连同它在页面上的位置一起返回。

相关