AI OCR

그대로 믿지 않아도 되는 AI OCR

space-ocr는 LLM으로 문서를 구조화한 뒤, 모든 값을 페이지의 실제 OCR 심볼과 대조 검증합니다. 값마다 위치와, 직접 확인할 수 있는 match_ratio가 붙습니다.

AI OCR은 지저분한 문서에 대한 답처럼 들립니다. 영수증이나 세금계산서를 모델에 건네면 깔끔한 구조화 필드가 돌아온다는 거죠. 문제는 모델이 틀렸을 때입니다. 언어 모델은 실제로 페이지에서 읽었든 아니든, 자신 있고 잘 정돈된 값을 돌려줍니다. 그리고 대부분의 도구는 그 차이를 가려낼 방법 없이 그 값을 그대로 건네줍니다.

space-ocr는 더 엄격한 입장을 취합니다. 구조화는 LLM이 하지만, 최종 판단은 맡기지 않습니다. 모델은 각 값과, 자신이 썼다고 보는 word-token ID를 돌려주고, 엔진은 그 값을 Google Vision이 페이지에서 실제로 검출한 심볼과 글자 단위로 대조합니다. 박스로 위치를 잡고, 얼마나 일치했는지 점수를 매깁니다. 그래서 AI는 파이프라인의 일부일 뿐, 그 심판이 아닙니다. AI가 내놓은 모든 값을 직접 확인할 수 있습니다.

AI의 출력을, 검증된 채로 보기

아래 어느 항목이든 마우스를 올려 보세요 — 영수증 위의 박스는 그 값이 페이지에서 실제로 발견된 자리이지, 모델이 주장한 자리가 아닙니다. 여기 있는 값·박스·일치 점수는 모두 실제 파싱 결과에서 읽어온 것으로, 목업이 아닙니다.

Receipts with extracted-field bounding boxes

Verified fields

KINSHO · 合計 2,045

ライフ · 合計 4,286

Each value with a box carries a verified on-page location — bbox + 4-point vertices + match_ratio — on a 0–1000 normalized grid (0,0 top-left → 1000,1000 bottom-right), the same shape the live API returns. Hover a field to trace it back to the pixels it came from.

AI 출력을 페이지와 대조 검증

LLM이 돌려주는 것은 각 값과, 사용한 word-token ID뿐입니다 — 좌표가 아닙니다. 먼저 CharMatcher가 돌아 그 값을, Vision이 실제로 검출한 심볼과 글자 단위로 대조합니다.

모든 값에 위치와 점수

각 필드는 바운딩 박스(0–1000 그리드의 xmin/ymin/xmax/ymax), 방향이 있는 네 꼭짓점, match_ratio와 함께 돌아옵니다. 0.85 이상이면 확실한 매칭, 1.0은 모든 글자를 찾았다는 뜻입니다.

템플릿이나 자동 필드, 스키마 불필요

`receipt`나 `invoice` 같은 내장 templateId를 적용하거나, 직접 필드를 정의하거나, autoFields를 켜서 모델이 스키마를 제안하게 하세요. 흔한 문서라면 스키마를 쓸 필요가 없습니다.

감사 추적: 원본과 수정본

셀을 고치면 그 수정은 원본 OCR 값을 덮어쓰지 않고 그 옆에 저장됩니다 — AI가 무엇을 읽었고 사람이 무엇을 바꿨는지 둘 다 기록에 남습니다.

모델이 속일 수 없는 품목

반복 값 열은 그대로 믿지 않고 열 정합과 행 일관성으로 검증합니다. 이웃한 두 행을 바꿔치기하는 모델의 실수는 내보내지기 전에 잡힙니다.

언어는 자동

일본어·한국어·중국어·영어를 한 엔진에서, 혼합 스크립트도 처리 — 언어 힌트 설정이 없습니다. 모델과 매처 모두 스크립트를 넘나들며 작동합니다.

space-ocr의 AI OCR 작동 방식

이미지를 올리면 LLM이 문서를 구조화 필드로 읽고, 각 값을 자신이 쓴 word-token ID와 함께 돌려줍니다. 그것이 당신에게 닿기 전에 CharMatcher가 그 값을 받아, 글자를 Google Vision이 페이지에서 검출한 심볼과 대조해 박스·회전 꼭짓점·match_ratio를 만듭니다. 모델이 토큰 ID를 줬다면 엔진은 그 Vision word 박스를 조회해 필드의 source를 token_id로 덮어쓸 수 있습니다 — 다만 반복 값 열에서는 모델의 토큰 힌트가 틀릴 수 있어 열 클러스터링과 행 일관성에 기댑니다.

스키마를 쓸 필요가 없습니다. receipt나 invoice 같은 내장 templateId를 넘기거나, 직접 fields를 정의하거나, autoFields를 켜서 모델이 구조를 제안하게 하세요. 웹 앱은 PDF를 페이지 단위로 먼저 이미지화하고, 공개 API는 래스터 이미지를 직접 받습니다(JPEG·PNG·GIF·BMP·TIFF·WebP).

문서를 구조화하고, 모든 값을 검증

curl -s https://api.space-ocr.com/ocr/fields \
  -H "Authorization: Bearer $SPACE_OCR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "image": "https://example.com/receipt.jpg",
    "imageType": "url",
    "templateId": "receipt"
  }'

검증할 수 있는 AI OCR 실행 방법

문서 보내기
이미지를 /ocr/fields에 보냅니다(url 또는 base64). 앱에서는 PDF를 끌어다 놓을 수 있고 각 페이지가 먼저 이미지화됩니다. 공개 API는 래스터 이미지를 받습니다.
AI에 구조화 맡기기
내장 templateId를 넘기거나, 직접 fields를 정의하거나, autoFields를 켜서 모델이 스키마를 제안하게 합니다. LLM은 각 값과 사용한 word-token ID를 돌려줍니다.
검증된 결과 읽기
각 값은 bbox·vertices·match_ratio·bbox_source와 함께 반환되며, 페이지 내 모든 필드 위치를 담은 field_bboxes 맵도 제공됩니다 — 페이지와 대조 검증된 AI의 출력입니다.
낮은 점수 검증
셀을 클릭하면 그 값을 읽어낸 정확한 영역이 강조됩니다. match_ratio가 0.85 미만이면 한 번 더 볼 값입니다. 수정 사항은 원본 OCR 값 옆에 저장됩니다.
내보내기 또는 조회
CSV(UTF-8 BOM, 품목 펼쳐짐)를 다운로드하거나, 저장된 시트를 GET /view로 where·sort·select를 써서 조회합니다 — OCR 재실행도 추가 비용도 없습니다.

단순하고 예측 가능한 가격

이미지당 ₩100(¥10 / $0.05), 신용카드 없이 월 100회 스캔 무료 플랜 포함. 정액 플랜은 월 스캔 수·시트·저장공간을 추가합니다.

Free

₩0

100 스캔/월
3 시트
1 GB 저장공간

무료 — 카드 불필요

Starter

₩29,800/월

400 스캔/월
10 시트
10 GB 저장공간

무료로 시작

가장 인기

Pro

₩69,800/월

1,100 스캔/월
시트 무제한
100 GB 저장공간

무료로 시작

JSON만 돌려주는 모델과 이 AI OCR은 무엇이 다른가요?

구조화는 LLM이 하지만 최종 판단은 맡기지 않습니다. 모델은 각 값과 사용한 word-token ID를 돌려주고, 엔진은 그 값을 Google Vision이 페이지에서 실제로 검출한 심볼과 글자 단위로 대조합니다. 모든 값에 박스와 match_ratio가 붙어, AI를 믿는 대신 확인할 수 있습니다.

좌표는 AI가 돌려주나요?

아니요. LLM이 돌려주는 것은 값과, 사용한 word-token ID이지 좌표가 아닙니다. 먼저 CharMatcher가 돌아 검출된 심볼과 글자를 대조해 바운딩 박스·회전 꼭짓점·match_ratio를 만듭니다. 토큰 ID는 보조적 덮어쓰기이며, 반복 값 열에서는 이를 믿는 대신 열과 행의 일관성을 검증합니다.

어떤 값을 믿어도 되는지 어떻게 판단하나요?

그 match_ratio를 보세요. 페이지에서 찾은 기대 글자의 비율(0.0–1.0)입니다. 0.85 이상이면 확실한 매칭, 1.0은 모든 글자를 찾았다는 뜻입니다. 0.85 미만은 한 번 더 볼 값으로 표시됩니다. 정확도 퍼센트는 내세우지 않고, 값마다 점수를 드립니다.

AI가 필드를 제안하게 할 수 있나요?

네. autoFields를 켜면 모델이 문서의 스키마를 제안합니다. 또는 receipt·invoice·delivery·business_card·driver_license 같은 내장 templateId를 넘기거나, 직접 fields를 정의하세요 — 품목에는 children이 있는 array 필드를 씁니다.

AI의 출력을 고치면 원본 값은 어떻게 되나요?

수정은 원본 OCR 값을 덮어쓰지 않고 그 옆에 저장됩니다. AI의 판독과 사람의 수정이 둘 다 기록에 남아, 시트에 되짚어 볼 수 있는 감사 추적이 생깁니다. CSV 내보내기는 UTF-8 BOM(Excel·한중일 안전)이고 품목은 하위 행으로 펼쳐집니다.

비용은 얼마인가요?

이미지당 $0.05(¥10 / ₩100)이며, 신용카드 없이 월 100회 스캔 무료 플랜이 있습니다. 정액 플랜(Starter·Pro)은 월 스캔 수·시트·저장공간을 추가합니다 — 위 요금표를 참고하세요.

AI를 문서에 쓰되, 그대로 믿지는 않기

무료 플랜 — 월 100회 스캔, 신용카드 불필요. 모델이 내놓은 모든 값이 위치와 점수와 함께 돌아옵니다.

무료로 시작하기 API 문서