space ocr
ガイド記事料金ドキュメント
AI OCR

鵜呑みにしなくていいAI OCR

space-ocrはLLMで書類を構造化し、その値をページ上の実際のOCR心象と照合検証。すべての値を位置づけ、確認できるmatch_ratioを付けて返します。

AI OCRは、散らかった書類への答えのように聞こえます。領収書や請求書をモデルに渡せば、きれいな構造化フィールドが返ってくる、と。問題は、モデルが間違ったときに何が起きるかです。言語モデルは、実際にページから読み取ったかどうかにかかわらず、自信ありげに整った値を返します。そしてほとんどのツールは、その違いを見分ける術を渡さないまま値を渡してきます。

space-ocrはもっと厳しい立場を取ります。構造化はLLMがやりますが、最終判断はさせません。モデルは各値と、使ったと考える word-token ID を返し、エンジンはその値を、Google Vision がページ上で実際に検出した心象と文字単位で照合します。ボックスで位置づけ、どれだけ一致したかを採点します。だからAIはパイプラインの一部であって、その審判ではありません。AIが出したすべての値を、あなたが確認できます。

AIの出力を、検証済みで見る

下のフィールドにマウスを合わせてみてください——領収書上のボックスは、その値がページ上で実際に見つかった場所であって、モデルが主張した場所ではありません。ここにある値・ボックス・マッチ率はすべて、実際の解析結果から読み込んだもので、モックアップではありません。

Receipts with extracted-field bounding boxes
Verified fields
KINSHO · 合計 2,045
ライフ · 合計 4,286

Each value with a box carries a verified on-page location — bbox + 4-point vertices + match_ratio — on a 0–1000 normalized grid (0,0 top-left → 1000,1000 bottom-right), the same shape the live API returns. Hover a field to trace it back to the pixels it came from.

AIの出力をページと照合検証
LLMが返すのは各値と、使った word-token ID だけ——座標は返しません。まず CharMatcher が走り、その値を、Vision が実際に検出した心象と文字単位で照合します。
すべての値を位置づけ採点
各フィールドはバウンディングボックス(0〜1000グリッド上の xmin/ymin/xmax/ymax)、回転対応の4頂点、match_ratio とともに返ります。0.85以上で確実なマッチ、1.0 はすべての文字が見つかったことを意味します。
テンプレートか自動フィールド、スキーマ不要
`receipt` や `invoice` といった組み込み templateId を適用するか、独自フィールドを定義するか、autoFields を立ててモデルにスキーマを提案させます。よくある書類ならスキーマを書く必要はありません。
監査証跡:元の値と編集後
セルを修正すると、編集は元のOCR値を上書きせず、その隣に保存されます——AIが何を読み、人が何を直したか、両方が記録に残ります。
モデルがごまかせない明細行
繰り返し値の列は盲信せず、列の整合と行の一貫性で検証します。隣り合う行を入れ替えるようなモデルの誤りは、エクスポートされる前に捕まります。
言語は全自動
日本語・韓国語・中国語・英語をひとつのエンジンで、混在スクリプトも処理——言語ヒントの設定は不要です。モデルもマッチャーもスクリプトをまたいで動きます。

space-ocrでのAI OCRの仕組み

画像をアップロードすると、LLMが書類を構造化フィールドに読み、各値を使った word-token ID とともに返します。それがあなたに届く前に、CharMatcher がその値を取り、文字を Google Vision がページで検出した心象と照合して、ボックス・回転頂点・match_ratio を作ります。モデルがトークンIDを与えていれば、エンジンはその Vision の word ボックスを引いてフィールドの source を token_id に上書きできます——ただし繰り返し値の列では、モデルのトークンヒントが外れうるため、列クラスタリングと行の一貫性に頼ります。

スキーマを書く必要はありません。receiptinvoice といった組み込み templateId を渡すか、独自の fields を定義するか、autoFields を立ててモデルに構造を提案させます。Webアプリは PDF をページごとに先に画像化し、公開APIはラスター画像を直接受け付けます(JPEG・PNG・GIF・BMP・TIFF・WebP)。

書類を構造化し、すべての値を検証
1
2
3
4
5
6
7
8
curl -s https://api.space-ocr.com/ocr/fields \
  -H "Authorization: Bearer $SPACE_OCR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "image": "https://example.com/receipt.jpg",
    "imageType": "url",
    "templateId": "receipt"
  }'

検証できるAI OCRを動かす手順

  1. 書類を送る
    画像を /ocr/fields に送ります(urlまたはbase64)。アプリではPDFをドロップでき、各ページが先に画像化されます。公開APIはラスター画像を受け付けます。
  2. AIに構造化させる
    組み込み templateId を渡すか、独自の fields を定義するか、autoFields を立ててモデルにスキーマを提案させます。LLMは各値と、使った word-token ID を返します。
  3. 検証済みの結果を読む
    各値は bbox・vertices・match_ratio・bbox_source とともに返り、ページ上の全フィールドの位置を示す field_bboxes マップが付きます——ページと照合検証されたAIの出力です。
  4. 低スコアを検証
    セルをクリックすると、それが読み取られた正確な領域がハイライトされます。0.85 を下回る match_ratio は要確認の印です。編集は元のOCR値の隣に保存されます。
  5. エクスポートまたはクエリ
    CSV(UTF-8 BOM、明細行は展開済み)をダウンロードするか、保存済みシートを GET /view で where・sort・select を使ってクエリします——OCR再実行も追加料金もありません。

シンプルで予測できる料金

1枚あたり¥10($0.05 / ₩100)、クレジットカード不要・月100スキャンの無料枠付き。定額プランは月間スキャン数・シート数・ストレージを追加します。

Free
¥0
  • 100 スキャン/月
  • 3 シート
  • 1 GB ストレージ
無料 — カード不要
Starter
¥2,980/月
  • 400 スキャン/月
  • 10 シート
  • 10 GB ストレージ
無料で始める
おすすめ
Pro
¥8,980/月
  • 1,100 スキャン/月
  • シート無制限
  • 100 GB ストレージ
無料で始める
JSONを返すだけのモデルと、このAI OCRは何が違いますか?
構造化はLLMがしますが、最終判断はさせません。モデルは各値と、使った word-token ID を返し、エンジンはその値を、Google Vision がページ上で実際に検出した心象と文字単位で照合します。すべての値にボックスと match_ratio が付くので、AIを信じるのではなく確認できます。
座標はAIが返すのですか?
いいえ。LLMが返すのは値と、使った word-token ID であって、座標ではありません。まず CharMatcher が走り、検出済みの心象と文字を照合してバウンディングボックス・回転頂点・match_ratio を作ります。トークンIDは補助的な上書きで、繰り返し値の列ではそれを信じる代わりに列と行の一貫性を検証します。
ある値を信じてよいか、どう判断しますか?
その match_ratio を見ます。ページ上で見つかった期待文字の割合(0.0〜1.0)です。0.85以上なら確実なマッチ、1.0 はすべての文字が見つかったことを意味します。0.85未満は要確認として印が付きます。精度パーセントは出さず、値ごとのスコアを渡します。
AIにフィールドを提案させられますか?
はい。autoFields を立てるとモデルが書類のスキーマを提案します。あるいは receipt・invoice・delivery・business_card・driver_license などの組み込み templateId を渡すか、独自の fields を定義します——明細行には children を持つ array フィールドを使います。
AIの出力を直すと、元の値はどうなりますか?
あなたの編集は、元のOCR値を上書きせず、その隣に保存されます。AIの読み取りと人の修正の両方が記録に残るので、シートには見返せる監査証跡があります。CSVエクスポートは UTF-8 BOM(Excel・CJK対応)で、明細行はサブ行に展開されます。
料金はいくらですか?
1枚あたり$0.05(¥10 / ₩100)で、クレジットカード不要・月100スキャンの無料枠があります。定額プラン(StarterとPro)は月間スキャン数・シート数・ストレージを追加します——上の料金表をご覧ください。

AIを書類に使う、でも盲信しない

無料枠——月100スキャン、クレジットカード不要。モデルが出したすべての値が、位置づけと採点とともに返ります。

関連