スキャナーの先へ:デジタル書類を体系的に整理するシステム
整理されていないスキャンデータにうんざりしていませんか?山積みのデジタルレシートや請求書を、フォルダとシートで構造化された検索可能なライブラリに変える方法をご紹介します。
スキャナーやスマートフォンのカメラは便利です。かつて机の上を占領していた紙のレシートや請求書、各種フォームは、今やコンピュータのフォルダに収まっています。一歩前進したように見えますが、3ヶ月前のあの経費を探し出したいと思ったとき、結局はscan_2024-08-17.jpgのような名前のファイルを何十個も開いて探す羽目になり、振り出しに戻ってしまいます。
問題は、紙をデジタル化すること自体ではありません。デジタル化されたコピーを管理するシステムがないことです。画像ファイルがただ溜まっているフォルダは、デジタルの紙の山に過ぎません。データを本当に役立てるには、抽出し、構造化し、見つけられるようにする必要があります。データには「置き場所」が必要なのです。
これが構造化されたワークスペースの仕組みです。以下のサンプルを操作して、抽出されたデータが元のドキュメントとどのように直接結びついているかをご確認ください。アップロードは不要です。

Each value with a box carries a verified on-page location — bbox + 4-point vertices + match_ratio — on a 0–1000 normalized grid (0,0 top-left → 1000,1000 bottom-right), the same shape the live API returns. Hover a field to trace it back to the pixels it came from.

解決策は、スキャンデータを個別のファイルとしてではなく、自分で管理するデータベースの項目として扱うことです。space-ocrでは、ワークスペースは自分で作成するフォルダとシートのシンプルなツリー構造になっています。クライアントごと、あるいは四半期ごとにフォルダを作成するなど、使い方は自由自在。あなただけのデジタルファイリングキャビネットです。
フォルダの中には「シート」を作成します。これは、特定の種類のドキュメント用のスプレッドシートのテンプレートだとお考えください。例えばレシート用なら、「店舗名」「日付」「合計金額」といった列を定義します。この作業は一度だけ。その後は、このシートにレシートをドラッグするたびに自動的に処理され、抽出されたデータが整理された新しい行として追加されていきます。
これにより、混沌としたプロセスが日々のルーティンに変わります。100枚のレシートも、管理すべき100個のファイルではなく、一貫した単一のテーブルにある100行のデータになるのです。複数ページのPDFをドロップすれば、各ページがそれぞれ別の行として追加されます。
もちろん、自動抽出には信頼性が不可欠です。システムが合計金額を「2,045」と読み取ったとして、それが正しいとどうやって確認できるでしょうか?そのセルをクリックしてみてください。ツールが元のドキュメント画像のどこからその数字を見つけたのか、該当箇所を即座にハイライト表示します。ご自身の目で確認できるのです。もし間違いを見つけたら、セルに直接入力して修正できます。手動で入力した値は、常にOCRの値を上書きします。
抽出された全てのデータは、元の書類画像上で監査証跡が確認できます。システムの言語モデルがテキストを提案し、最終的な位置座標は、ページ上のOCRシンボルとの文字単位での照合によって決定されます。各値にはmatch_ratioスコアが付与され、0.85以上のスコアは信頼性の高い一致を示します。この相互検証ステップにより、位置データがLLMの推測だけでなく、ソース画像にしっかりと基づいていることが保証されます。
このシステムは実用性を重視して作られており、それは料金体系にも反映されています。スキャン画像1枚あたり¥10のシンプルな従量課金制です。毎月最初の100スキャンは無料で、何らかの理由でOCRスキャンが失敗した場合は料金はかかりません。フォルダの閲覧、シートの表示、データのエクスポートに追加料金は発生しません。
より定期的にご利用になる方向けに、定額プランもご用意しています。無料プランには3シートと1GBのストレージが含まれます。スタータープランでは、月間約400スキャンに相当する10シートと10GBのストレージに拡張され、プロプランでは無制限のシート、100GBのストレージ、月間約1,100スキャンをご利用いただけます。
- 最初のフォルダを作成ワークスペースに新しいフォルダを作成します。クライアント名、プロジェクト名、または「第3四半期 請求書」のような期間で名前を付けるとよいでしょう。
- シートを作成フォルダ内に新しいシートを作成します。このシートには、レシートや作業指示書など、特定の種類のドキュメントを保管します。
- 列を定義取得したいデータの列を設定します。請求書シートなら、「ベンダー名」「請求書番号」「日付」「合計金額」などを追加します。
- ドキュメントをアップロードスキャンした画像やPDFをシートにドラッグ&ドロップします。各ファイルが処理され、列にデータが入力された新しい行として表示されます。
- データを確認新しい行のいずれかのセルをクリックします。元のドキュメント画像が表示され、対応する領域がハイライトされるため、抽出されたデータを瞬時に確認できます。
- 必要な情報を検索上部にあるメイン検索バーを使って、どんなドキュメントでも探せます。ベンダー名や請求書番号を入力すれば、目的のシートとセルに直接移動します。