space ocr
指南文章價格文件
documents

如何從圖片中提取表格資料並轉存為 CSV 檔案

將表格、訂單或出貨單的照片,轉換為乾淨的 CSV 檔案。了解 space-ocr 如何處理項目明細,並確保每一列資料都能準確提取。

4 分鐘閱讀· 2026-07-02

將掃描表格的資料輸入試算表,是件傳統又繁瑣的工作。您可能有一張清晰的出貨單或採購單圖片,上面列滿了詳細項目,但這些終究只是像素。接下來的步驟通常是枯燥的人工資料輸入,逐一將品項、數量和價格複製到新的儲存格中。這個過程不僅緩慢,一個小小的打字錯誤就可能毀了整份資料。

A table-style order/delivery document
一張項目明細表——包含多列資料,但格式一致。

一個更好的方法是將表格結構視為一個範本。與其單純地抓取一大塊文字,不如先定義好您需要的欄位。對於重複出現的項目明細區塊,您可以將其定義為一個陣列,並設定如「品名」、「單價」和「數量」等子欄位。當您上傳圖片後,space-ocr 會根據這個結構進行處理,將圖片中的每一列都轉換為一筆結構化的資料。

為項目明細定義一個陣列欄位,然後上傳圖片,即可將表格提取為結構化網格。

即使是內容密集、充滿重複數值的表格,這種方法也同樣有效。系統會先使用大型語言模型來初步提取文字,但這只是第一步。對於每一個數值,例如品名為「刻みたくあん」或單價為「580」,系統都會進行交叉驗證。引擎會將語言模型的建議與文件的欄位結構進行比對,並根據頁面上原始偵測到的光學字元辨識(OCR)符號,進行逐字匹配。這個驗證步驟能有效防止資料在相鄰的資料列之間發生錯位。

資料提取完成後,只需點擊一下,即可將整張工作表匯出為乾淨的 CSV 檔案。
✓ Verified

每一個提取出的數值都會與來源圖片進行核對。AI 建議的文字會透過與頁面上實際 OCR 符號的逐字匹配來進行驗證。這個過程會產生一個 match_ratio 信賴度分數;分數若達到 0.85 或更高,即表示為高信賴度匹配。每個數值的邊界框座標都是從這些匹配的符號推導出來,並標準化為 0–1000 的範圍,為每一筆資料提供可供查核的紀錄。

費用根據用量計算,處理每張圖片為 $0.05。您的帳戶每月包含 100 次免費掃描。如果因任何原因提取失敗,我們不會收取任何費用。

  1. 定義工作表結構
    建立一個新的工作表並定義您的欄位。對於項目明細,請使用「array」類型,並為其新增如品名、數量、價格等子欄位。
  2. 上傳您的圖片
    透過拖放或使用 API 將表格圖片上傳至該工作表。
  3. 檢視提取的資料
    圖片將會根據您定義的結構進行處理。表格中的每個項目明細都會以結構化資料列的形式出現在工作表中。
  4. 視情況修正
    點擊任一儲存格,即可在圖片上看到對應的區域。您可以直接在網格中手動修正任何數值。
  5. 匯出為 CSV
    點擊「匯出」按鈕並選擇 CSV。您的表格資料(包含所有項目明細)將會下載為一個乾淨、結構化的檔案。
如果我的表格有合併儲存格或複雜的版面配置該怎麼辦?
本系統專為標準的行列式表格設計。對於高度複雜的版面,您可以定義多個結構範本,或在初步提取後於工作表中手動調整資料。
CSV 匯出功能如何處理項目明細?
如果您的陣列欄位名稱為「items」,且其子欄位為「name」和「price」,那麼 CSV 的標頭將會是「items.name」和「items.price」。圖片中的每個項目明細都會成為 CSV 檔案中的一個獨立資料列。
我可以處理含有表格的 PDF 檔案嗎?
可以,在我們的網頁應用程式中,您可以直接拖放 PDF 檔案,系統會自動將每一頁渲染成圖片進行處理。API 本身則接受如 JPEG 和 PNG 等點陣圖格式。
每個儲存格的座標是如何決定的?
對於每個提取出的數值,系統會將其字元與頁面上偵測到的 OCR 符號進行匹配。這個驗證步驟會產生一個信賴度分數和一個標準化為 0-1000 範圍的邊界框,以確保其位置與原始文件對應。
表格的列數有限制嗎?
技術上沒有硬性規定列數的上限。處理效能取決於圖片的清晰度和表格的複雜度。本系統的設計旨在處理如發票和訂單等常見的商業文件。

將您的圖片表格轉化為可用資料

每月獲取 100 次免費掃描。無需信用卡即可開始使用。

相關文章