AI OCR

不必盲信的 AI OCR

space-ocr 用 LLM 把文件結構化，再把每個值與頁面上真實的 OCR 符號比對驗證。每個值都被定位，並帶一個你可以核對的 match_ratio。

AI OCR 聽起來像是雜亂文件的答案：把一張收據或發票交給模型，拿回乾淨的結構化欄位。問題在於模型出錯時會怎樣。語言模型不論是否真的從頁面上讀到，都會回傳一個自信、格式工整的值，而大多數工具把這個值交給你時，沒有讓你分辨真假的辦法。

space-ocr 走更嚴格的路線。結構化由 LLM 來做，但它說了不算。模型回傳每個值，以及它認為用到的 word-token id；引擎隨後把這個值與 Google Vision 在頁面上真實偵測到的符號逐字比對，用一個框把它定位，並為比對程度打分。所以 AI 是流程的一部分，而不是流程的裁判。它產出的每個值，你都能核對。

看一次被核對過的 AI 輸出

把滑鼠移到下方任一欄位上——收據上的框是這個值在頁面上真正被找到的位置，而不是模型聲稱的位置。這裡的每個值、框與比對分數，都直接讀自一次真實的解析結果，而不是擺拍。

Receipts with extracted-field bounding boxes

Verified fields

KINSHO · 合計 2,045

ライフ · 合計 4,286

Each value with a box carries a verified on-page location — bbox + 4-point vertices + match_ratio — on a 0–1000 normalized grid (0,0 top-left → 1000,1000 bottom-right), the same shape the live API returns. Hover a field to trace it back to the pixels it came from.

AI 輸出與頁面比對驗證

LLM 回傳的只是每個值和它用到的 word-token id——絕不是座標。CharMatcher 先執行，把這個值與 Vision 真實偵測到的符號逐字比對。

每個值都被定位並打分

每個欄位回傳一個邊界框（0–1000 格線上的 xmin/ymin/xmax/ymax）、四個帶方向的頂點與一個 match_ratio。0.85 以上是可信比對，1.0 表示每個字元都被找到。

範本或自動欄位，免 schema

套用內建 templateId（例如 receipt 或 invoice），定義你自己的欄位，或開啟 autoFields 讓模型提出 schema。常見文件不必寫 schema。

稽核軌跡：原始與修改

當你修正一個儲存格時，修改會儲存在原始 OCR 值旁邊，而不是覆寫它——AI 讀到了什麼、人改了什麼，都留在紀錄裡。

模型造不了假的明細列

重複值的欄不會被盲信，而是用欄一致性與列一致性來驗證。模型把相鄰兩列調換這種錯誤，會在匯出前被抓住。

語言自動辨識

日文、韓文、中文、英文在一個引擎裡，混合文字也能處理——無需設定語言提示。模型與比對器都能跨文字運作。

space-ocr 裡的 AI OCR 如何運作

上傳一張圖片，LLM 把文件讀成結構化欄位，每個值連同它用到的 word-token id 一起回傳。在它送到你手裡之前，CharMatcher 接過這個值，把字元與 Google Vision 在頁面上偵測到的符號比對，產生框、帶方向的頂點與 match_ratio。如果模型給了 token id，引擎會查那些 Vision 詞框，並可把欄位的 source 覆寫為 token_id——但對重複值的欄，它依靠欄聚類與列一致性，因為模型的 token 提示在那裡可能出錯。

你不必寫 schema。傳一個內建 templateId，例如 receipt 或 invoice，定義你自己的 fields，或開啟 autoFields 讓模型提出結構。Web 應用會先把 PDF 逐頁點陣化，公開 API 直接接收點陣圖像（JPEG、PNG、GIF、BMP、TIFF、WebP）。

結構化文件，並核對每個值

curl -s https://api.space-ocr.com/ocr/fields \
  -H "Authorization: Bearer $SPACE_OCR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "image": "https://example.com/receipt.jpg",
    "imageType": "url",
    "templateId": "receipt"
  }'

如何執行可驗證的 AI OCR

傳送一份文件
把圖片傳送到 /ocr/fields（url 或 base64）。在應用程式裡你可以拖入 PDF，每一頁會先被點陣化。公開 API 接收點陣圖像。
讓 AI 來結構化
傳一個內建 templateId，定義你自己的 fields，或開啟 autoFields 讓模型提出 schema。LLM 回傳每個值以及它用到的 word-token id。
讀取被核對過的結果
每個值連同它的 bbox、vertices、match_ratio 與 bbox_source 一起回傳，還有一個定位頁面上每個欄位的 field_bboxes 對應表——與頁面比對驗證過的 AI 輸出。
核對低分值
點擊儲存格即可高亮它被讀取的確切區域；低於 0.85 的 match_ratio 會標出值得複核的值。你的修改會儲存在原始 OCR 值旁邊。
匯出或查詢
下載 CSV（UTF-8 BOM，明細列已展開），或用 GET /view 搭配 where、sort、select 查詢已儲存的工作表——無需重跑 OCR，也不額外收費。

簡單、可預期的定價

每張圖片 $0.05（¥10 / ₩100），含每月 100 次掃描的免費額度，免信用卡。方案計畫增加每月掃描數、更多工作表與儲存空間。

Free

100 次掃描/月
3 工作表
1 GB 儲存空間

免費 — 免信用卡

Starter

$19/月

400 次掃描/月
10 工作表
10 GB 儲存空間

免費開始

最受歡迎

Pro

$49/月

1,100 次掃描/月
無限工作表
100 GB 儲存空間

免費開始

這套 AI OCR 和一個只回傳 JSON 的模型有什麼不同？

結構化由 LLM 來做，但它說了不算。模型回傳每個值以及它用到的 word-token id，引擎隨後把這個值與 Google Vision 在頁面上真實偵測到的符號逐字比對。每個值都帶一個框和一個 match_ratio，所以你是在核對 AI，而不是信任它。

座標是 AI 回傳的嗎？

不是。LLM 回傳的是值和它用到的 word-token id，而不是座標。CharMatcher 先執行，把字元與已偵測到的符號比對，產生邊界框、帶方向的頂點與 match_ratio。token id 是次要的覆寫，對重複值的欄，引擎會改用欄與列的一致性來驗證而不是信任它們。

我怎麼判斷某個值能不能信？

看它的 match_ratio。它是頁面上找到的預期字元的比例（0.0–1.0）。0.85 以上是可信比對，1.0 表示每個字元都被找到。低於 0.85 會被標出，提示你再看一眼。我們不報準確率百分比，而是給你逐值的分數。

可以讓 AI 替我提出欄位嗎？

可以。開啟 autoFields，模型會為文件提出一個 schema；或者傳一個內建 templateId，如 receipt、invoice、delivery、business_card、driver_license，或定義你自己的欄位——明細列用帶 children 的 array 欄位。

我修改 AI 的輸出後，原始值會怎樣？

你的修改會儲存在原始 OCR 值旁邊，而不是覆寫它。AI 的讀取與人的修正都留在紀錄裡，所以工作表有一條可回溯的稽核軌跡。CSV 匯出是 UTF-8 BOM（Excel 與中日韓安全），明細列展開為子列。

多少錢？

每張圖片 $0.05（¥10 / ₩100），含每月 100 次掃描的免費額度，免信用卡。方案計畫（Starter 與 Pro）增加每月掃描數、更多工作表與儲存——見上方的方案。

把 AI 用在你的文件上，但不盲信它

免費額度——每月 100 次掃描，免信用卡。模型產出的每個值都連同定位與分數一起回傳。

免費開始 API 文件

相關

文件 OCR 稽核軌跡：驗證每一個擷取出來的數值

如何用邊界框（bounding box）驗證 OCR 辨識結果

收據與發票 OCR 軟體推薦（2026 完整指南）