PDF OCR

확인할 수 있는 데이터로 바꾸는 PDF OCR

space-ocr로 PDF·스캔에서 구조화 데이터를 추출하세요. 품목, 내장 템플릿, CSV/JSON 내보내기, 그리고 모든 값이 페이지 내 위치와 일치 점수와 함께 반환됩니다.

PDF는 데이터가 숨어버리는 곳입니다. 세금계산서, 영수증 더미, 납품서 — 숫자는 분명 페이지에 있는데, 스프레드시트로 옮기려면 결국 다시 입력하게 됩니다. PDF OCR은 이를 해결하겠다고 약속합니다. 문서를 읽어 구조화된 필드를 돌려준다는 거죠. 문제는 대부분의 도구가 그럴듯한 추측에서 멈추고, 나머지는 그냥 믿으라고 한다는 점입니다.

space-ocr는 더 엄격한 질문에 답합니다. PDF를 구조화된 행으로 바꾸고, 모든 값을 페이지에서 읽어낸 정확한 위치와 함께 돌려줍니다 — 눈으로 보이는 박스와, 얼마나 일치했는지를 나타내는 점수까지요. 그래서 추출 결과를 그대로 믿을 필요 없이 직접 확인할 수 있습니다.

직접 검증할 수 있는 실제 추출 결과

아래 어느 항목이든 마우스를 올려 보세요 — 영수증 위의 박스가 그 값을 읽어낸 지점입니다. 여기 있는 숫자·박스·일치 점수는 모두 실제 파싱 결과에서 읽어온 것으로, 목업이 아닙니다.

Receipts with extracted-field bounding boxes

Verified fields

KINSHO · 合計 2,045

ライフ · 合計 4,286

Each value with a box carries a verified on-page location — bbox + 4-point vertices + match_ratio — on a 0–1000 normalized grid (0,0 top-left → 1000,1000 bottom-right), the same shape the live API returns. Hover a field to trace it back to the pixels it came from.

모든 값에 위치 정보

각 필드는 바운딩 박스(0–1000 그리드의 xmin/ymin/xmax/ymax), 방향이 있는 네 꼭짓점, match_ratio를 반환합니다 — 숫자가 페이지 내 정확한 위치까지 추적됩니다.

합계만이 아니라 품목까지

표는 셀별 위치를 가진 반복 행으로 돌아옵니다. 줄바꿈되거나 병합된 행도 추적 가능합니다.

내장 템플릿

영수증·세금계산서·납품서·명함·신분증 템플릿을 templateId 하나로 적용하거나, 직접 필드를 정의하세요.

깔끔한 내보내기

UTF-8 BOM CSV(Excel·한중일 안전, 품목 펼침)와 비동기 작업·서명 웹훅을 갖춘 REST API의 JSON.

언어는 자동

일본어·한국어·중국어·영어를 한 엔진에서 — 언어 힌트 설정 없이, 혼합 스크립트도 처리합니다.

휴대폰 사진도 OK

로드 시 EXIF 회전을 적용하고 박스가 문서 기울기를 따라가, 비뚤어진 스캔이나 사진도 깔끔하게 맞습니다.

space-ocr의 PDF OCR 작동 방식

앱에 PDF를 끌어다 놓으면 각 페이지가 이미지로 렌더링되고, 읽혀서 구조화된 필드가 됩니다 — 여러 페이지 PDF는 정렬·필터·내보내기가 가능한 행의 모음이 됩니다. API를 직접 호출한다면 페이지 이미지를 보내세요(공개 API는 래스터 이미지를 받습니다 — JPEG·PNG·GIF·BMP·TIFF·WebP). 돌아오는 구조화 결과는 동일합니다.

흔한 문서라면 스키마를 작성할 필요가 없습니다. receipt나 invoice 같은 내장 templateId를 넘기거나, 직접 fields를 정의하세요 — 품목에는 children을 가진 array 필드를 포함합니다.

페이지 이미지에서 필드 추출

curl -s https://api.space-ocr.com/ocr/fields \
  -H "Authorization: Bearer $SPACE_OCR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "image": "https://example.com/invoice-page-1.png",
    "imageType": "url",
    "templateId": "invoice"
  }'

PDF를 OCR하는 방법

PDF 추가
앱에 PDF를 끌어다 놓으면 각 페이지가 이미지로 렌더링되어 OCR 대기열에 들어갑니다. API에서는 페이지 이미지(url 또는 base64)를 /ocr/fields에 보냅니다.
템플릿 또는 필드 선택
'receipt'나 'invoice' 같은 내장 templateId를 넘기거나, 직접 fields를 지정합니다 — 품목 표에는 children이 있는 array 필드를 포함합니다.
구조화 결과 읽기
각 값은 bbox·vertices·match_ratio·bbox_source와 함께 반환되며, 페이지 내 모든 필드 위치를 담은 field_bboxes 맵도 제공됩니다.
무엇이든 검증
셀을 클릭하면 그 값을 읽어낸 정확한 영역이 강조됩니다. match_ratio가 0.85 미만이면 한 번 더 살펴볼 값입니다. 수정 사항은 원본 OCR 값 옆에 저장됩니다.
내보내기 또는 조회
CSV(UTF-8 BOM, 품목 펼쳐짐)를 다운로드하거나, 저장된 시트를 GET /view로 where·sort·select를 써서 조회합니다 — OCR 재실행도 추가 비용도 없습니다.

단순하고 예측 가능한 가격

이미지당 ₩100(¥10 / $0.05), 신용카드 없이 월 100회 스캔 무료 플랜 포함. 정액 플랜은 월 스캔 수·시트·저장공간을 추가합니다.

Free

₩0

100 스캔/월
3 시트
1 GB 저장공간

무료 — 카드 불필요

Starter

₩29,800/월

400 스캔/월
10 시트
10 GB 저장공간

무료로 시작

가장 인기

Pro

₩69,800/월

1,100 스캔/월
시트 무제한
100 GB 저장공간

무료로 시작

space-ocr로 PDF를 OCR할 수 있나요?

네. 웹 앱은 PDF를 직접 받아 각 페이지를 이미지로 렌더링한 뒤 OCR하므로, 여러 페이지 PDF가 구조화된 행이 됩니다. 공개 API는 래스터 이미지(JPEG·PNG·GIF·BMP·TIFF·WebP)를 받으므로, API를 쓸 때는 페이지 이미지를 보냅니다.

PDF OCR이 각 값의 위치를 보존하나요?

네. 추출된 각 값은 바운딩 박스(0–1000 정규화 그리드의 xmin/ymin/xmax/ymax), 문서 기울기를 따르는 네 꼭짓점, match_ratio와 함께 반환됩니다. match_ratio가 0.85 이상이면 확실한 매칭으로 보고, 1.0은 모든 글자를 페이지에서 찾았다는 뜻입니다.

PDF에서 표와 품목을 추출할 수 있나요?

네. 품목을 type이 'array'인 필드로 요청하고, 그 children이 한 행(품명·수량·단가 등)을 정의합니다. 각 셀이 자체 바운딩 박스를 보존하므로, 줄바꿈되거나 병합된 품목도 위치까지 추적할 수 있습니다.

PDF OCR 결과는 무엇으로 내보낼 수 있나요?

UTF-8 BOM이 있는 CSV(Excel이 한·중·일 텍스트를 올바르게 열고, 품목은 하위 행으로 펼쳐짐)와 REST API의 JSON입니다. 또한 저장된 시트를 GET /view로 where·sort·select를 써서 서버 측에서 조회할 수 있습니다 — OCR 재실행도 추가 비용도 없습니다.

PDF OCR 비용은 얼마인가요?

이미지당 $0.05(¥10 / ₩100)이며, 신용카드 없이 월 100회 스캔 무료 플랜이 있습니다. 정액 플랜(Starter·Pro)은 월 스캔 수·시트·저장공간을 추가합니다 — 위 요금표를 참고하세요.

어떤 언어를 지원하나요?

언어 감지는 완전 자동입니다 — 일본어·한국어·중국어·영어를 한 엔진에서 처리하며, 혼합 스크립트, 전각·반각, 세로쓰기도 지원합니다. 언어 힌트를 설정하지 않습니다.

내 PDF를 직접 확인 가능한 데이터로

무료 플랜 — 월 100회 스캔, 신용카드 불필요. 모든 값이 페이지 내 위치와 함께 돌아옵니다.

무료로 시작하기 API 문서