不必盲信的 AI OCR
space-ocr 用 LLM 把文件結構化,再把每個值與頁面上真實的 OCR 符號比對驗證。每個值都被定位,並帶一個你可以核對的 match_ratio。
AI OCR 聽起來像是雜亂文件的答案:把一張收據或發票交給模型,拿回乾淨的結構化欄位。問題在於模型出錯時會怎樣。語言模型不論是否真的從頁面上讀到,都會回傳一個自信、格式工整的值,而大多數工具把這個值交給你時,沒有讓你分辨真假的辦法。
space-ocr 走更嚴格的路線。結構化由 LLM 來做,但它說了不算。模型回傳每個值,以及它認為用到的 word-token id;引擎隨後把這個值與 Google Vision 在頁面上真實偵測到的符號逐字比對,用一個框把它定位,並為比對程度打分。所以 AI 是流程的一部分,而不是流程的裁判。它產出的每個值,你都能核對。
看一次被核對過的 AI 輸出
把滑鼠移到下方任一欄位上——收據上的框是這個值在頁面上真正被找到的位置,而不是模型聲稱的位置。這裡的每個值、框與比對分數,都直接讀自一次真實的解析結果,而不是擺拍。

Each value with a box carries a verified on-page location — bbox + 4-point vertices + match_ratio — on a 0–1000 normalized grid (0,0 top-left → 1000,1000 bottom-right), the same shape the live API returns. Hover a field to trace it back to the pixels it came from.
space-ocr 裡的 AI OCR 如何運作
上傳一張圖片,LLM 把文件讀成結構化欄位,每個值連同它用到的 word-token id 一起回傳。在它送到你手裡之前,CharMatcher 接過這個值,把字元與 Google Vision 在頁面上偵測到的符號比對,產生框、帶方向的頂點與 match_ratio。如果模型給了 token id,引擎會查那些 Vision 詞框,並可把欄位的 source 覆寫為 token_id——但對重複值的欄,它依靠欄聚類與列一致性,因為模型的 token 提示在那裡可能出錯。
你不必寫 schema。傳一個內建 templateId,例如 receipt 或 invoice,定義你自己的 fields,或開啟 autoFields 讓模型提出結構。Web 應用會先把 PDF 逐頁點陣化,公開 API 直接接收點陣圖像(JPEG、PNG、GIF、BMP、TIFF、WebP)。
curl -s https://api.space-ocr.com/ocr/fields \
-H "Authorization: Bearer $SPACE_OCR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"image": "https://example.com/receipt.jpg",
"imageType": "url",
"templateId": "receipt"
}'如何執行可驗證的 AI OCR
- 傳送一份文件把圖片傳送到 /ocr/fields(url 或 base64)。在應用程式裡你可以拖入 PDF,每一頁會先被點陣化。公開 API 接收點陣圖像。
- 讓 AI 來結構化傳一個內建 templateId,定義你自己的 fields,或開啟 autoFields 讓模型提出 schema。LLM 回傳每個值以及它用到的 word-token id。
- 讀取被核對過的結果每個值連同它的 bbox、vertices、match_ratio 與 bbox_source 一起回傳,還有一個定位頁面上每個欄位的 field_bboxes 對應表——與頁面比對驗證過的 AI 輸出。
- 核對低分值點擊儲存格即可高亮它被讀取的確切區域;低於 0.85 的 match_ratio 會標出值得複核的值。你的修改會儲存在原始 OCR 值旁邊。
- 匯出或查詢下載 CSV(UTF-8 BOM,明細列已展開),或用 GET /view 搭配 where、sort、select 查詢已儲存的工作表——無需重跑 OCR,也不額外收費。
簡單、可預期的定價
每張圖片 $0.05(¥10 / ₩100),含每月 100 次掃描的免費額度,免信用卡。方案計畫增加每月掃描數、更多工作表與儲存空間。