이미지에서 표 데이터를 추출하여 CSV로 변환하기
표, 주문서, 배송 전표 사진을 깔끔한 CSV 파일로 변환하세요. space-ocr이 어떻게 개별 항목을 처리하고 각 행을 정확하게 추출하는지 알아보세요.
스캔한 표의 데이터를 스프레드시트로 옮겨 적는 일은 번거롭기 짝이 없습니다. 배송 전표나 구매 주문서처럼 여러 항목이 나열된 선명한 이미지가 있지만, 결국은 픽셀 덩어리에 불과하죠. 보통은 각 항목, 수량, 가격을 하나씩 보면서 새로운 행에 일일이 입력하는 지루한 수작업을 거쳐야 합니다. 이 과정은 시간이 오래 걸릴 뿐만 아니라, 오타 하나만으로도 전체 데이터가 엉망이 될 수 있습니다.

더 나은 방법은 표의 구조를 일종의 템플릿으로 활용하는 것입니다. 단순히 텍스트 덩어리 하나를 통째로 가져오는 대신, 필요한 열을 직접 정의할 수 있습니다. 반복되는 항목 부분은 '배열(array)' 타입으로 지정하고, 그 안에 상품명, 단가, 수량과 같은 하위 열들을 정의하면 됩니다. 이미지를 업로드하면 space-ocr은 이 구조에 맞춰 각 행을 구조화된 데이터로 변환합니다.
이 방식은 동일한 값이 반복되는 빽빽한 표에서도 효과적입니다. 시스템은 대규모 언어 모델(LLM)을 사용해 추출할 텍스트를 먼저 제안하지만, 거기서 멈추지 않습니다. "刻みたくあん" 같은 상품명이나 "580" 같은 단가 등 각 값에 대해 교차 검증을 수행합니다. 엔진은 언어 모델의 제안을 문서의 열 구조와 비교하고, 페이지에서 최초로 인식된 OCR 기호들과 문자 하나하나를 대조하여 확인합니다. 이 검증 과정을 통해 데이터가 인접한 행으로 밀려나는 현상을 방지합니다.
추출된 모든 값은 원본 이미지와 대조하여 검증됩니다. AI가 제안한 텍스트는 페이지에서 실제로 감지된 OCR 기호와 문자를 맞춰보는 방식으로 확인됩니다. 이 과정에서 match_ratio 신뢰도 점수가 생성되며, 0.85 이상이면 신뢰할 수 있는 일치로 간주합니다. 각 값의 바운딩 박스 좌표는 이렇게 일치된 기호들로부터 도출되고 0-1000 범위로 정규화되어, 모든 데이터에 대한 검증 가능한 추적 기록을 제공합니다.
이용 요금은 처리된 이미지당 100원입니다. 계정에는 매월 100건의 무료 스캔이 제공됩니다. 어떤 이유로든 추출에 실패하면 비용이 청구되지 않습니다.
- 시트 스키마 정의하기새 시트를 만들고 필요한 열을 정의합니다. 반복되는 항목의 경우 '배열(array)' 타입을 사용하고 상품명, 수량, 가격 등에 대한 하위 열을 추가하세요.
- 이미지 업로드하기표 이미지를 시트로 드래그 앤 드롭하거나 API를 통해 업로드합니다.
- 추출된 데이터 검토하기이미지는 정의한 스키마에 따라 처리됩니다. 표의 각 항목은 시트에서 구조화된 행으로 나타납니다.
- 필요시 수정하기특정 셀을 클릭하면 이미지의 해당 영역을 바로 확인할 수 있습니다. 그리드에서 직접 값을 수정하세요.
- CSV로 내보내기'내보내기' 버튼을 클릭하고 CSV를 선택하세요. 모든 항목을 포함한 표 데이터가 깔끔한 구조의 파일로 다운로드됩니다.