space ocr
ガイド記事料金ドキュメント
documents

画像内の表データをCSVに抽出する方法

表、注文書、納品書の写真から、クリーンなCSVファイルを作成します。space-ocrがどのように明細行を処理し、各行を正確に抽出するかを解説します。

4 分で読了· 2026-07-02

スキャンした納品書や注文書の表データを、スプレッドシートに入力するのは骨の折れる作業です。鮮明な画像があっても、結局はピクセルデータに過ぎません。多くの場合、項目、数量、価格などを一行ずつ手でコピー&ペーストする地道な作業が待っています。このプロセスは時間がかかるだけでなく、たった一つの入力ミスがデータセット全体を狂わせてしまう原因にもなります。

表形式の注文書・納品書
明細行が並ぶ表 — 多くの行を、一貫した形式で出力します。

より良いアプローチは、表の構造をテンプレートとして扱うことです。単にテキストブロックを抜き出すのではなく、必要な列を定義します。例えば、繰り返し現れる明細行のセクションは、商品名、単価、数量といった子要素を持つ配列として定義します。画像をアップロードすると、space-ocrはこの構造に従って処理を行い、画像内の各行を構造化されたデータに変換します。

明細行の配列フィールドを定義し、画像をアップロードして表データを構造化されたグリッドに抽出します。

この方法は、値が密集した表でも有効です。システムはまず大規模言語モデルを使って抽出テキストの候補を生成しますが、処理はそこで終わりません。例えば「株式会社山治」という会社名や「580」という単価など、個々の値に対してクロス検証を行います。言語モデルの提案を文書の列構造と照合し、ページ上で元々検出されたOCRシンボルと文字単位でマッチングさせます。この検証ステップにより、データが隣接する行にずれてしまうのを防ぎます。

データが抽出されたら、ワンクリックでシート全体をクリーンなCSVファイルとしてエクスポートできます。
✓ Verified

抽出されたすべての値は、元の画像と照合して検証されます。AIが提案したテキストは、ページ上で検出された実際のOCRシンボルと文字単位でマッチングさせることでチェックされます。このプロセスにより、信頼度スコアであるmatch_ratioが生成されます。スコアが0.85以上であれば、信頼性の高い一致と判断できます。各値のバウンディングボックス座標は、このマッチングしたシンボルから導出され、0から1000のスケールで正規化されるため、すべてのデータに対して検証可能な監査証跡を提供します。

料金は従量課金制で、画像処理1枚あたり¥10です。毎月100枚分の無料スキャン枠がアカウントに付与されます。何らかの理由で抽出に失敗した場合は、料金は一切かかりません。

  1. シートスキーマを定義する
    新しいシートを作成し、列を定義します。明細行には「配列」タイプを使用し、商品名、数量、価格などの子列を追加します。
  2. 画像をアップロードする
    ドラッグ&ドロップまたはAPIを使用して、表が写った画像をシートにアップロードします。
  3. 抽出データを確認する
    画像がスキーマに沿って処理されます。表の各明細行が、シート上で構造化された行として表示されます。
  4. 必要に応じて修正する
    任意のセルをクリックすると、画像上の対応する領域が表示されます。グリッド上で直接、値を手動で修正できます。
  5. CSVにエクスポートする
    「エクスポート」ボタンをクリックし、CSVを選択します。すべての明細行を含む表データが、クリーンで構造化されたファイルとしてダウンロードされます。
セルが結合されていたり、レイアウトが複雑な場合はどうなりますか?
このシステムは、標準的な行と列で構成された表向けに設計されています。非常に複雑なレイアウトの場合は、複数のスキーマを定義するか、初期抽出後にシート上で手動でデータを調整することができます。
CSVエクスポートでは、明細行はどのように処理されますか?
配列の列名を 'items' とし、その子要素として 'name' と 'price' がある場合、CSVのヘッダーは 'items.name' と 'items.price' になります。画像内の各明細行は、CSVファイル内でそれぞれ別の行として出力されます。
表が記載されたPDFファイルも処理できますか?
はい、ウェブアプリで可能です。PDFファイルをドロップすると、各ページが自動的に画像としてレンダリングされ、処理対象となります。API自体は、JPEGやPNGなどのラスター画像形式を受け付けます。
各セルの座標はどのように決定されるのですか?
抽出された各値について、システムはその文字をページ上で検出されたOCRシンボルと照合します。この検証ステップにより、信頼度スコアと、0から1000のスケールで正規化されたバウンディングボックスが生成され、元の文書上の位置が特定されます。
表の行数に制限はありますか?
技術的なハードリミットはありません。パフォーマンスは画像の鮮明さや表の複雑さによりますが、請求書や注文書のような一般的なビジネス文書を処理できるように構築されています。

画像内の表を、使えるデータに

毎月100枚の無料スキャンをご利用いただけます。クレジットカードの登録は不要です。

関連記事