如何從圖片中提取表格資料並轉存為 CSV 檔案
將表格、訂單或出貨單的照片,轉換為乾淨的 CSV 檔案。了解 space-ocr 如何處理項目明細,並確保每一列資料都能準確提取。
將掃描表格的資料輸入試算表,是件傳統又繁瑣的工作。您可能有一張清晰的出貨單或採購單圖片,上面列滿了詳細項目,但這些終究只是像素。接下來的步驟通常是枯燥的人工資料輸入,逐一將品項、數量和價格複製到新的儲存格中。這個過程不僅緩慢,一個小小的打字錯誤就可能毀了整份資料。

一個更好的方法是將表格結構視為一個範本。與其單純地抓取一大塊文字,不如先定義好您需要的欄位。對於重複出現的項目明細區塊,您可以將其定義為一個陣列,並設定如「品名」、「單價」和「數量」等子欄位。當您上傳圖片後,space-ocr 會根據這個結構進行處理,將圖片中的每一列都轉換為一筆結構化的資料。
即使是內容密集、充滿重複數值的表格,這種方法也同樣有效。系統會先使用大型語言模型來初步提取文字,但這只是第一步。對於每一個數值,例如品名為「刻みたくあん」或單價為「580」,系統都會進行交叉驗證。引擎會將語言模型的建議與文件的欄位結構進行比對,並根據頁面上原始偵測到的光學字元辨識(OCR)符號,進行逐字匹配。這個驗證步驟能有效防止資料在相鄰的資料列之間發生錯位。
每一個提取出的數值都會與來源圖片進行核對。AI 建議的文字會透過與頁面上實際 OCR 符號的逐字匹配來進行驗證。這個過程會產生一個 match_ratio 信賴度分數;分數若達到 0.85 或更高,即表示為高信賴度匹配。每個數值的邊界框座標都是從這些匹配的符號推導出來,並標準化為 0–1000 的範圍,為每一筆資料提供可供查核的紀錄。
費用根據用量計算,處理每張圖片為 $0.05。您的帳戶每月包含 100 次免費掃描。如果因任何原因提取失敗,我們不會收取任何費用。
- 定義工作表結構建立一個新的工作表並定義您的欄位。對於項目明細,請使用「array」類型,並為其新增如品名、數量、價格等子欄位。
- 上傳您的圖片透過拖放或使用 API 將表格圖片上傳至該工作表。
- 檢視提取的資料圖片將會根據您定義的結構進行處理。表格中的每個項目明細都會以結構化資料列的形式出現在工作表中。
- 視情況修正點擊任一儲存格,即可在圖片上看到對應的區域。您可以直接在網格中手動修正任何數值。
- 匯出為 CSV點擊「匯出」按鈕並選擇 CSV。您的表格資料(包含所有項目明細)將會下載為一個乾淨、結構化的檔案。