space ocr
指南文章價格文件
AI OCR

不必盲信的 AI OCR

space-ocr 用 LLM 把文件結構化,再把每個值與頁面上真實的 OCR 符號比對驗證。每個值都被定位,並帶一個你可以核對的 match_ratio。

AI OCR 聽起來像是雜亂文件的答案:把一張收據或發票交給模型,拿回乾淨的結構化欄位。問題在於模型出錯時會怎樣。語言模型不論是否真的從頁面上讀到,都會回傳一個自信、格式工整的值,而大多數工具把這個值交給你時,沒有讓你分辨真假的辦法。

space-ocr 走更嚴格的路線。結構化由 LLM 來做,但它說了不算。模型回傳每個值,以及它認為用到的 word-token id;引擎隨後把這個值與 Google Vision 在頁面上真實偵測到的符號逐字比對,用一個框把它定位,並為比對程度打分。所以 AI 是流程的一部分,而不是流程的裁判。它產出的每個值,你都能核對。

看一次被核對過的 AI 輸出

把滑鼠移到下方任一欄位上——收據上的框是這個值在頁面上真正被找到的位置,而不是模型聲稱的位置。這裡的每個值、框與比對分數,都直接讀自一次真實的解析結果,而不是擺拍。

Receipts with extracted-field bounding boxes
Verified fields
KINSHO · 合計 2,045
ライフ · 合計 4,286

Each value with a box carries a verified on-page location — bbox + 4-point vertices + match_ratio — on a 0–1000 normalized grid (0,0 top-left → 1000,1000 bottom-right), the same shape the live API returns. Hover a field to trace it back to the pixels it came from.

AI 輸出與頁面比對驗證
LLM 回傳的只是每個值和它用到的 word-token id——絕不是座標。CharMatcher 先執行,把這個值與 Vision 真實偵測到的符號逐字比對。
每個值都被定位並打分
每個欄位回傳一個邊界框(0–1000 格線上的 xmin/ymin/xmax/ymax)、四個帶方向的頂點與一個 match_ratio。0.85 以上是可信比對,1.0 表示每個字元都被找到。
範本或自動欄位,免 schema
套用內建 templateId(例如 receipt 或 invoice),定義你自己的欄位,或開啟 autoFields 讓模型提出 schema。常見文件不必寫 schema。
稽核軌跡:原始與修改
當你修正一個儲存格時,修改會儲存在原始 OCR 值旁邊,而不是覆寫它——AI 讀到了什麼、人改了什麼,都留在紀錄裡。
模型造不了假的明細列
重複值的欄不會被盲信,而是用欄一致性與列一致性來驗證。模型把相鄰兩列調換這種錯誤,會在匯出前被抓住。
語言自動辨識
日文、韓文、中文、英文在一個引擎裡,混合文字也能處理——無需設定語言提示。模型與比對器都能跨文字運作。

space-ocr 裡的 AI OCR 如何運作

上傳一張圖片,LLM 把文件讀成結構化欄位,每個值連同它用到的 word-token id 一起回傳。在它送到你手裡之前,CharMatcher 接過這個值,把字元與 Google Vision 在頁面上偵測到的符號比對,產生框、帶方向的頂點與 match_ratio。如果模型給了 token id,引擎會查那些 Vision 詞框,並可把欄位的 source 覆寫為 token_id——但對重複值的欄,它依靠欄聚類與列一致性,因為模型的 token 提示在那裡可能出錯。

你不必寫 schema。傳一個內建 templateId,例如 receiptinvoice,定義你自己的 fields,或開啟 autoFields 讓模型提出結構。Web 應用會先把 PDF 逐頁點陣化,公開 API 直接接收點陣圖像(JPEG、PNG、GIF、BMP、TIFF、WebP)。

結構化文件,並核對每個值
1
2
3
4
5
6
7
8
curl -s https://api.space-ocr.com/ocr/fields \
  -H "Authorization: Bearer $SPACE_OCR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "image": "https://example.com/receipt.jpg",
    "imageType": "url",
    "templateId": "receipt"
  }'

如何執行可驗證的 AI OCR

  1. 傳送一份文件
    把圖片傳送到 /ocr/fields(url 或 base64)。在應用程式裡你可以拖入 PDF,每一頁會先被點陣化。公開 API 接收點陣圖像。
  2. 讓 AI 來結構化
    傳一個內建 templateId,定義你自己的 fields,或開啟 autoFields 讓模型提出 schema。LLM 回傳每個值以及它用到的 word-token id。
  3. 讀取被核對過的結果
    每個值連同它的 bbox、vertices、match_ratio 與 bbox_source 一起回傳,還有一個定位頁面上每個欄位的 field_bboxes 對應表——與頁面比對驗證過的 AI 輸出。
  4. 核對低分值
    點擊儲存格即可高亮它被讀取的確切區域;低於 0.85 的 match_ratio 會標出值得複核的值。你的修改會儲存在原始 OCR 值旁邊。
  5. 匯出或查詢
    下載 CSV(UTF-8 BOM,明細列已展開),或用 GET /view 搭配 where、sort、select 查詢已儲存的工作表——無需重跑 OCR,也不額外收費。

簡單、可預期的定價

每張圖片 $0.05(¥10 / ₩100),含每月 100 次掃描的免費額度,免信用卡。方案計畫增加每月掃描數、更多工作表與儲存空間。

Free
$0
  • 100 次掃描/月
  • 3 工作表
  • 1 GB 儲存空間
免費 — 免信用卡
Starter
$19/月
  • 400 次掃描/月
  • 10 工作表
  • 10 GB 儲存空間
免費開始
最受歡迎
Pro
$49/月
  • 1,100 次掃描/月
  • 無限工作表
  • 100 GB 儲存空間
免費開始
這套 AI OCR 和一個只回傳 JSON 的模型有什麼不同?
結構化由 LLM 來做,但它說了不算。模型回傳每個值以及它用到的 word-token id,引擎隨後把這個值與 Google Vision 在頁面上真實偵測到的符號逐字比對。每個值都帶一個框和一個 match_ratio,所以你是在核對 AI,而不是信任它。
座標是 AI 回傳的嗎?
不是。LLM 回傳的是值和它用到的 word-token id,而不是座標。CharMatcher 先執行,把字元與已偵測到的符號比對,產生邊界框、帶方向的頂點與 match_ratio。token id 是次要的覆寫,對重複值的欄,引擎會改用欄與列的一致性來驗證而不是信任它們。
我怎麼判斷某個值能不能信?
看它的 match_ratio。它是頁面上找到的預期字元的比例(0.0–1.0)。0.85 以上是可信比對,1.0 表示每個字元都被找到。低於 0.85 會被標出,提示你再看一眼。我們不報準確率百分比,而是給你逐值的分數。
可以讓 AI 替我提出欄位嗎?
可以。開啟 autoFields,模型會為文件提出一個 schema;或者傳一個內建 templateId,如 receipt、invoice、delivery、business_card、driver_license,或定義你自己的欄位——明細列用帶 children 的 array 欄位。
我修改 AI 的輸出後,原始值會怎樣?
你的修改會儲存在原始 OCR 值旁邊,而不是覆寫它。AI 的讀取與人的修正都留在紀錄裡,所以工作表有一條可回溯的稽核軌跡。CSV 匯出是 UTF-8 BOM(Excel 與中日韓安全),明細列展開為子列。
多少錢?
每張圖片 $0.05(¥10 / ₩100),含每月 100 次掃描的免費額度,免信用卡。方案計畫(Starter 與 Pro)增加每月掃描數、更多工作表與儲存——見上方的方案。

把 AI 用在你的文件上,但不盲信它

免費額度——每月 100 次掃描,免信用卡。模型產出的每個值都連同定位與分數一起回傳。

相關