Image OCR

返回结构化字段而不是一堆文字的图像 OCR

用 space-ocr 对 JPEG、PNG 等图像做 OCR：内置模板、明细行、CSV/JSON 导出，每个值都连同它在图像上的框和匹配分数一起返回。

大多数图像 OCR只是丢给你一堆纯文本，然后就没了。你拍一张票据，跑一遍，回来的是一团行，你还得自己去读、去拆、再录进对应的列里。原本在页面上一眼就能看清的结构，没了。

space-ocr 把图像读成结构化字段——店名在这、日期在那、合计在那边、明细是一行行的。并且把每个值连同它在图像上被读取的确切位置一起返回：一个看得见的框，外加一个表示它与像素匹配程度的分数。所以你不必盲信提取结果，而是可以看着照片亲自核对。

看一次你可以亲自核对的真实提取

这是一张图像——拍了两张票据的照片——被读成了字段。把鼠标悬停在下方任意值上，图像上的框就是这个值被读取的位置。这里的每个数字、框和匹配分数，都直接读自一次真实的解析结果，而不是摆拍。

Receipts with extracted-field bounding boxes

Verified fields

KINSHO · 合計 2,045

ライフ · 合計 4,286

Each value with a box carries a verified on-page location — bbox + 4-point vertices + match_ratio — on a 0–1000 normalized grid (0,0 top-left → 1000,1000 bottom-right), the same shape the live API returns. Hover a field to trace it back to the pixels it came from.

结构化字段，不是一堆文字

图像会变成带名字的字段和行——店名、日期、合计、明细行——可以直接进表格，而不是一串你得自己去拆的长字符串。

每个值都有位置

每个字段返回一个边界框（0–1000 网格上的 xmin/ymin/xmax/ymax）、四个带方向的顶点和一个 match_ratio——值可追溯到图像上的确切位置。

手机照片也行

加载时应用 EXIF 旋转，所以返回的坐标与你看到的图像对齐；带方向的框也会跟随手持拍摄的倾斜。

内置模板

用一个 templateId 套用票据、发票、送货单、名片或驾照模板——也可以定义你自己的字段。

不只是合计，还有明细行

表格以可重复的行返回，每个单元格都带位置，即使在拥挤的图像上一行换行或合并也能追踪。

干净的导出

带 UTF-8 BOM 的 CSV（Excel 与中日韩文本安全，明细行展开），以及带异步任务和签名 Webhook 的 REST API JSON。

space-ocr 里的图像 OCR 如何工作

把图像以 URL 或纯 base64 发送到 /ocr/fields——JPEG、PNG、GIF、BMP、TIFF、WebP 都会被直接读取。加载时应用 EXIF orientation，所以返回的框与显示出来的照片对齐，哪怕是斜着拿手机拍的也一样。

常见文档不必写 schema。传一个内置 templateId，比如 receipt 或 invoice，或者定义你自己的 fields——明细行用一个带 children 的 array 字段来描述一行。（PDF 走 Web 应用，先把每一页渲染成图片；API 本身读的是图像。）

从图像提取字段

curl -s https://api.space-ocr.com/ocr/fields \
  -H "Authorization: Bearer $SPACE_OCR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "image": "https://example.com/receipt-photo.jpg",
    "imageType": "url",
    "templateId": "receipt"
  }'

如何对图像做 OCR

发送你的图像
把 JPEG、PNG、GIF、BMP、TIFF 或 WebP 以 URL 或纯 base64 发送到 /ocr/fields，或拖进应用。加载时会应用 EXIF 旋转。
选择模板或字段
传一个内置 templateId，比如 'receipt' 或 'invoice'，或提供你自己的 fields——明细行表格用带 children 的 array 字段。
读取结构化结果
每个值连同它的 bbox、vertices、match_ratio 和 bbox_source 一起返回，还有一个定位图像上每个字段的 field_bboxes 映射。
随时核对
点击一个值即可高亮它被读取的确切区域；低于 0.85 的 match_ratio 会标记出值得复核的值。编辑会保存在原始 OCR 值旁边。
导出或查询
下载 CSV（UTF-8 BOM，明细行已展开），或用 GET /view 配合 where、sort、select 查询已存储的表格——无需重跑 OCR，也不额外收费。

简单、可预期的定价

每张图片 $0.05（¥10 / ₩100），含每月 100 次扫描的免费额度，无需信用卡。套餐计划增加每月扫描数、更多表格和存储空间。

Free

100 次扫描/月
3 表格
1 GB 存储

免费 — 无需信用卡

Starter

$19/月

400 次扫描/月
10 表格
10 GB 存储

免费开始

最受欢迎

Pro

$49/月

1,100 次扫描/月
无限表格
100 GB 存储

免费开始

space-ocr 能对哪些图像格式做 OCR？

公开 API 直接读取栅格图像——JPEG、PNG、GIF、BMP、TIFF、WebP。图像会被自动转成 RGB。PDF 走 Web 应用，先把每一页渲染成图片再做 OCR。

图像 OCR 给我的是结构化字段还是纯文本？

结构化字段。图像被读成带名字的值和行——店名、日期、合计、明细行——每个都带自己的位置，而不是一团你得自己解析的纯文本。

我能对手机拍的照片做 OCR 吗？

能。加载时应用 EXIF orientation，所以返回的坐标与显示出来的照片对齐，带方向的边界框会跟随手持拍摄的倾斜。稍微歪斜的照片也能对齐。

图像 OCR 会保留每个值的位置吗？

会。每个值都连同一个边界框（0–1000 归一化网格上的 xmin/ymin/xmax/ymax）、四个带方向的顶点，以及一个 match_ratio 一起返回。match_ratio 达到 0.85 及以上视为可信匹配，1.0 表示每个字符都在图像上被找到。

我怎么把图像发给 API？

发送到 POST /ocr/fields，作为 URL（imageType 'url'）或纯 base64（imageType 'base64'，不带 data-URI 前缀）。用 Bearer 令牌认证，密钥以 spocr_ 开头。传一个内置 templateId 或你自己的 fields。

图像 OCR 多少钱？

每张图片 $0.05（¥10 / ₩100），含每月 100 次扫描的免费额度，无需信用卡。套餐计划（Starter 和 Pro）增加每月扫描数、更多表格和存储——见上方的计划。

把你自己的图像变成可核对的数据

免费额度——每月 100 次扫描，无需信用卡。每个值都连同它在图像上的位置一起返回。

免费开始 API 文档