documents

이미지에서 표 데이터를 추출하여 CSV로 변환하기

표, 주문서, 배송 전표 사진을 깔끔한 CSV 파일로 변환하세요. space-ocr이 어떻게 개별 항목을 처리하고 각 행을 정확하게 추출하는지 알아보세요.

4 분 분량· 2026-07-02

스캔한 표의 데이터를 스프레드시트로 옮겨 적는 일은 번거롭기 짝이 없습니다. 배송 전표나 구매 주문서처럼 여러 항목이 나열된 선명한 이미지가 있지만, 결국은 픽셀 덩어리에 불과하죠. 보통은 각 항목, 수량, 가격을 하나씩 보면서 새로운 행에 일일이 입력하는 지루한 수작업을 거쳐야 합니다. 이 과정은 시간이 오래 걸릴 뿐만 아니라, 오타 하나만으로도 전체 데이터가 엉망이 될 수 있습니다.

표 형식의 주문/배송 문서 — 반복되는 항목이 많은 표 — 일관된 형식으로 데이터를 추출합니다.

더 나은 방법은 표의 구조를 일종의 템플릿으로 활용하는 것입니다. 단순히 텍스트 덩어리 하나를 통째로 가져오는 대신, 필요한 열을 직접 정의할 수 있습니다. 반복되는 항목 부분은 '배열(array)' 타입으로 지정하고, 그 안에 상품명, 단가, 수량과 같은 하위 열들을 정의하면 됩니다. 이미지를 업로드하면 space-ocr은 이 구조에 맞춰 각 행을 구조화된 데이터로 변환합니다.

반복 항목에 대한 배열 필드를 정의한 후, 이미지를 업로드하여 표를 구조화된 그리드로 추출합니다.

이 방식은 동일한 값이 반복되는 빽빽한 표에서도 효과적입니다. 시스템은 대규모 언어 모델(LLM)을 사용해 추출할 텍스트를 먼저 제안하지만, 거기서 멈추지 않습니다. "刻みたくあん" 같은 상품명이나 "580" 같은 단가 등 각 값에 대해 교차 검증을 수행합니다. 엔진은 언어 모델의 제안을 문서의 열 구조와 비교하고, 페이지에서 최초로 인식된 OCR 기호들과 문자 하나하나를 대조하여 확인합니다. 이 검증 과정을 통해 데이터가 인접한 행으로 밀려나는 현상을 방지합니다.

데이터 추출이 완료되면 클릭 한 번으로 전체 시트를 깔끔한 CSV 파일로 내보낼 수 있습니다.

✓ Verified

추출된 모든 값은 원본 이미지와 대조하여 검증됩니다. AI가 제안한 텍스트는 페이지에서 실제로 감지된 OCR 기호와 문자를 맞춰보는 방식으로 확인됩니다. 이 과정에서 match_ratio 신뢰도 점수가 생성되며, 0.85 이상이면 신뢰할 수 있는 일치로 간주합니다. 각 값의 바운딩 박스 좌표는 이렇게 일치된 기호들로부터 도출되고 0-1000 범위로 정규화되어, 모든 데이터에 대한 검증 가능한 추적 기록을 제공합니다.

이용 요금은 처리된 이미지당 100원입니다. 계정에는 매월 100건의 무료 스캔이 제공됩니다. 어떤 이유로든 추출에 실패하면 비용이 청구되지 않습니다.

시트 스키마 정의하기
새 시트를 만들고 필요한 열을 정의합니다. 반복되는 항목의 경우 '배열(array)' 타입을 사용하고 상품명, 수량, 가격 등에 대한 하위 열을 추가하세요.
이미지 업로드하기
표 이미지를 시트로 드래그 앤 드롭하거나 API를 통해 업로드합니다.
추출된 데이터 검토하기
이미지는 정의한 스키마에 따라 처리됩니다. 표의 각 항목은 시트에서 구조화된 행으로 나타납니다.
필요시 수정하기
특정 셀을 클릭하면 이미지의 해당 영역을 바로 확인할 수 있습니다. 그리드에서 직접 값을 수정하세요.
CSV로 내보내기
'내보내기' 버튼을 클릭하고 CSV를 선택하세요. 모든 항목을 포함한 표 데이터가 깔끔한 구조의 파일로 다운로드됩니다.

셀 병합이나 복잡한 레이아웃이 있는 표는 어떻게 하나요?

이 시스템은 표준적인 행과 열 구조의 표에 최적화되어 있습니다. 매우 복잡한 레이아웃의 경우, 여러 스키마를 정의하거나 초기 추출 후 시트에서 직접 데이터를 수동으로 조정할 수 있습니다.

CSV로 내보내기 시 표의 각 항목은 어떻게 처리되나요?

'items'라는 이름의 배열 열에 'name'과 'price'라는 하위 열이 있다면, CSV 헤더는 'items.name'과 'items.price'가 됩니다. 이미지의 각 품목은 CSV 파일에서 별도의 행으로 생성됩니다.

PDF 파일에 있는 표도 처리할 수 있나요?

네, 웹 앱에서 가능합니다. PDF 파일을 드래그 앤 드롭하면 각 페이지가 이미지로 자동 변환되어 처리됩니다. API 자체는 JPEG나 PNG와 같은 래스터 이미지 형식만 지원합니다.

각 셀의 좌표는 어떻게 결정되나요?

추출된 각 값에 대해, 시스템은 해당 값의 문자를 페이지에서 인식된 OCR 기호와 대조합니다. 이 검증 단계를 통해 신뢰도 점수와 0-1000 범위로 정규화된 바운딩 박스가 생성되어, 원본 문서에서의 위치를 정확하게 보장합니다.

표의 행 개수에 제한이 있나요?

행 개수에 대한 엄격한 기술적 제한은 없습니다. 성능은 이미지의 선명도와 표의 복잡성에 따라 달라질 수 있습니다. 이 시스템은 청구서나 주문서와 같은 일반적인 비즈니스 문서를 처리하도록 설계되었습니다.

이미지 속 표를 데이터로 바꾸세요

매월 100건의 무료 스캔을 이용해 보세요. 시작하는 데 신용카드는 필요 없습니다.

추출 시작하기 문서 보기

스캔 문서를 CSV로 변환하는 방법 (단계별 가이드)

스캔한 PDF를 엑셀로 변환하기: 페이지 이미지를 CSV로