space ocr
ガイド記事料金ドキュメント
Japanese OCR

確認できるデータに変える、日本語OCR

space-ocrで日本語の領収書・請求書・納品書を読み取り。混在スクリプト、全角・縦書き対応、文字化けしないCJK安全CSV、すべての値が位置とマッチ率付きで返ります。

日本語は、ふつうのOCRが静かに崩れる場所です。1枚の領収書に漢字・かな・半角カナ・全角数字、そしてときどき英語までが混ざり、合計は右端の縦書き列に並んでいたりします。多くのツールは先に言語を選ばせるか、レイアウトを失った平らなテキストの塊を返すかのどちらかです。本当に役立つ日本語OCRは、それを一度に読み、各数字がどこから来たのかを教えてくれる必要があります。

space-ocrは両方をこなします。JP書類を読んで構造化フィールドを返し、すべての値を、ページ上のどこから読み取ったかという正確な位置とともに返します——見えるボックスと、テキストがページで検出された文字とどれだけ一致したかのスコア付きで。言語検出は自動なので、ヒントの設定は不要です。日本語・韓国語・中国語・英語をひとつのエンジンがまとめて扱います。

その場で確認できる、実際の日本語抽出

下のフィールドにマウスを合わせてみてください。ここで読んでいる2枚の領収書は本物です——合計2,045のKINSHO 布施店と、合計4,286のライフ 国分店、どちらも2019年8月の日付です。値・ボックス・マッチ率はすべて実際の解析結果から読み込んだもので、モックアップではありません。ボックスは漢字・かな・数字が混ざった各行に沿います。

Receipts with extracted-field bounding boxes
Verified fields
KINSHO · 合計 2,045
ライフ · 合計 4,286

Each value with a box carries a verified on-page location — bbox + 4-point vertices + match_ratio — on a 0–1000 normalized grid (0,0 top-left → 1000,1000 bottom-right), the same shape the live API returns. Hover a field to trace it back to the pixels it came from.

言語検出は自動
選ぶ言語ヒントはありません。低コストの視覚パスがスクリプトを検出して振り分けるので、日本語・韓国語・中国語・英語が何も指定せずに同じエンジンを通ります。
全角・縦書き・混在スクリプト
漢字・ひらがな・カタカナ・半角カナ・全角数字・英語が同じ行にあってもまとめて正規化。縦書き列はテキストの流れで検出し、正しい行にグループ化します。
文字化けしないCJK安全CSV
エクスポートはUTF-8 BOM付きCSVなので、店舗名・合計・商品名がExcelで文字化けせず正しく開きます。明細行はサブ行に展開されます。
すべての値に位置情報
各フィールドはバウンディングボックス(0〜1000グリッド上の xmin/ymin/xmax/ymax)、回転対応の4頂点、match_ratioを返します——2,045が伝票上の正確な位置まで遡れます。
実際のJP書類、明細行まで
領収書・請求書・納品書が、合計・日付・店舗名と、明細1行ごとの繰り返し行で返ります。各セルは折り返してもそれぞれの位置を保ちます。
スマホ写真もOK
読み込み時にEXIF回転を適用し、ボックスは書類の傾きに沿います。斜めから撮ったしわくちゃの領収書でもきれいに合います。

space-ocrでの日本語OCRの仕組み

LLMは座標を作りません。書類を読んで各値と使ったword-token IDを返し、まず文字マッチャーが走って、その文字をVisionが実際にページで検出したシンボルと突き合わせます。そのマッチがボックス・回転4頂点・match_ratioを生み、token IDは補助的なオーバーライドです。だから同じ数字の全角・半角がひとつの値に解決し、すべてのフィールドに信頼スコアが付くので、鵜呑みにする数字ではなく確認できる値が手に入ります。

アプリにPDFをドロップすると、各ページがまず画像にレンダリングされてから読まれます——複数ページの請求書や納品書に便利です。APIを直接呼ぶ場合はページ画像を送ってください(公開APIはラスター画像を受け付けます——JPEG・PNG・GIF・BMP・TIFF・WebP)。返ってくる構造化結果は同じです。receiptinvoicedelivery といった組み込みの templateId を渡すか、明細行には children を持つ array フィールドを含めて独自のフィールドを定義します。

日本語の領収書画像からフィールドを抽出
1
2
3
4
5
6
7
8
curl -s https://api.space-ocr.com/ocr/fields \
  -H "Authorization: Bearer $SPACE_OCR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "image": "https://example.com/receipt-jp.jpg",
    "imageType": "url",
    "templateId": "receipt"
  }'

日本語の書類をOCRする手順

  1. 書類を追加
    アプリに領収書・請求書・PDFをドロップすると、各ページが画像にレンダリングされOCR待ち行列に入ります。APIではページ画像(urlまたはbase64)を /ocr/fields に送ります。言語設定は不要です。
  2. テンプレートまたはフィールドを選ぶ
    'receipt'・'invoice'・'delivery' といった組み込み templateId を渡すか、独自の fields を指定します——明細行テーブルには children を持つ array フィールドを含めます。
  3. 構造化された結果を読む
    各値は bbox・vertices・match_ratio・bbox_source とともに返り、ページ上の全フィールドの位置を示す field_bboxes マップが付きます——全角や縦書きも含めて。
  4. なんでも検証
    セルをクリックすると、それが読み取られた正確な領域がハイライトされます。0.85 を下回る match_ratio は要確認の値です。編集は元のOCR値の隣に保存されます。
  5. エクスポートまたはクエリ
    CSV(UTF-8 BOMで日本語がきれいに開く、明細行は展開済み)をダウンロードするか、保存済みシートを GET /view で where・sort・select を使ってクエリします——OCR再実行も追加料金もありません。

シンプルで予測できる料金

1枚あたり¥10($0.05 / ₩100)、クレジットカード不要・月100スキャンの無料枠付き。定額プランは月間スキャン数・シート数・ストレージを追加します。

Free
¥0
  • 100 スキャン/月
  • 3 シート
  • 1 GB ストレージ
無料 — カード不要
Starter
¥2,980/月
  • 400 スキャン/月
  • 10 シート
  • 10 GB ストレージ
無料で始める
おすすめ
Pro
¥8,980/月
  • 1,100 スキャン/月
  • シート無制限
  • 100 GB ストレージ
無料で始める
書類が日本語だと指定する必要がありますか?
いいえ。言語検出は自動で、言語ヒントや選択肢の設定はありません。低コストの視覚パスがスクリプトを検出して振り分けるので、日本語・韓国語・中国語・英語がひとつのエンジンを通ります。それらが混ざった書類も同じです。
全角文字や縦書きにも対応しますか?
はい。漢字・ひらがな・カタカナ・半角カナ・全角数字・英語が同じ行にあってもまとめて正規化し、縦書き列はテキストの流れで検出して正しい行にグループ化します。返ってくるボックスは方向に関わらず各行に沿います。
CSVエクスポートで日本語は文字化けしませんか?
文字化けしません。CSVはUTF-8 BOM付きで書き出されるので、店舗名・合計・商品名がExcelで正しく開き、明細行はサブ行に展開されます。REST API経由のJSONも同じ値をそのまま保持します。
日本語OCRは各値の位置を保持しますか?
はい。各値はバウンディングボックス(0〜1000正規化グリッド上の xmin/ymin/xmax/ymax)、書類の傾きに沿った4頂点、match_ratio とともに返ります。match_ratio が 0.85 以上で確実なマッチとみなされ、1.0 はすべての文字がページ上で見つかったことを意味します。
どの日本語書類を読めますか?
領収書・請求書・納品書・名刺・身分証・自由様式フォームのラスター画像です。`receipt`・`invoice`・`delivery` といった組み込み templateId を適用するか、独自の fields を定義します——明細行テーブルには children を持つ array フィールドを含めます。
日本語OCRの料金はいくらですか?
1枚あたり$0.05(¥10 / ₩100)で、クレジットカード不要・月100スキャンの無料枠があります。定額プラン(StarterとPro)は月間スキャン数・シート数・ストレージを追加します——上の料金表をご覧ください。

あなたの日本語書類を、確認できるデータに

無料枠——月100スキャン、クレジットカード不要。すべての値がページ上の位置とともに返ります。

関連