확인할 수 있는 데이터로 바꾸는 일본어 OCR
space-ocr로 일본어 영수증·세금계산서·납품서를 읽으세요. 혼합 스크립트, 전각·세로쓰기 처리, 깨지지 않는 CJK 안전 CSV, 모든 값이 위치와 일치 점수와 함께 반환됩니다.
일본어는 평범한 OCR이 조용히 무너지는 지점입니다. 영수증 한 장에 한자·가나·반각 가타카나·전각 숫자, 거기에 가끔 영어까지 섞이고, 합계는 오른쪽 가장자리 세로 칸에 적혀 있기도 합니다. 대부분의 도구는 먼저 언어를 고르게 하거나, 레이아웃을 잃은 평평한 텍스트 덩어리를 돌려줍니다. 정말 쓸모 있는 일본어 OCR은 그 모든 것을 한 번에 읽고, 각 숫자가 어디서 왔는지 알려줘야 합니다.
space-ocr는 둘 다 합니다. JP 문서를 읽어 구조화된 필드를 돌려주고, 모든 값을 페이지에서 읽어낸 정확한 위치와 함께 반환합니다 — 눈에 보이는 박스와, 텍스트가 페이지에서 검출된 문자와 얼마나 일치했는지를 나타내는 점수까지요. 언어 감지는 자동이라 설정할 힌트가 없고, 일본어·한국어·중국어·영어를 한 엔진이 함께 처리합니다.
직접 검증할 수 있는 실제 일본어 추출
아래 어느 항목이든 마우스를 올려 보세요. 여기서 읽은 영수증 두 장은 실제 데이터입니다 — 합계 2,045의 KINSHO 布施店 영수증과 합계 4,286의 ライフ 国分店 영수증, 둘 다 2019년 8월 날짜입니다. 값·박스·일치 점수는 모두 실제 파싱 결과에서 읽어온 것으로 목업이 아니며, 박스는 한자·가나·숫자가 섞인 각 줄을 따라갑니다.

Each value with a box carries a verified on-page location — bbox + 4-point vertices + match_ratio — on a 0–1000 normalized grid (0,0 top-left → 1000,1000 bottom-right), the same shape the live API returns. Hover a field to trace it back to the pixels it came from.
space-ocr의 일본어 OCR 작동 방식
LLM은 좌표를 만들지 않습니다. 문서를 읽어 각 값과 사용한 word-token ID를 반환하고, 먼저 문자 매처가 돌아서 그 문자를 Vision이 실제로 페이지에서 검출한 심볼과 대조합니다. 그 매칭이 박스·회전 네 꼭짓점·match_ratio를 만들고, token ID는 보조 오버라이드입니다. 그래서 같은 숫자의 전각·반각이 하나의 값으로 정리되고, 모든 필드에 신뢰 점수가 붙어 그대로 믿어야 하는 숫자가 아니라 확인할 수 있는 값을 얻습니다.
앱에 PDF를 끌어다 놓으면 각 페이지가 먼저 이미지로 렌더링된 뒤 읽힙니다 — 여러 페이지 세금계산서나 납품서에 편리합니다. API를 직접 호출한다면 페이지 이미지를 보내세요(공개 API는 래스터 이미지를 받습니다 — JPEG·PNG·GIF·BMP·TIFF·WebP). 돌아오는 구조화 결과는 동일합니다. receipt·invoice·delivery 같은 내장 templateId를 넘기거나, 품목에 children을 가진 array 필드를 포함해 직접 fields를 정의하세요.
curl -s https://api.space-ocr.com/ocr/fields \
-H "Authorization: Bearer $SPACE_OCR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"image": "https://example.com/receipt-jp.jpg",
"imageType": "url",
"templateId": "receipt"
}'일본어 문서를 OCR하는 방법
- 문서 추가앱에 영수증·세금계산서·PDF를 끌어다 놓으면 각 페이지가 이미지로 렌더링되어 OCR 대기열에 들어갑니다. API에서는 페이지 이미지(url 또는 base64)를 /ocr/fields에 보냅니다. 언어 설정은 필요 없습니다.
- 템플릿 또는 필드 선택'receipt'·'invoice'·'delivery' 같은 내장 templateId를 넘기거나, 직접 fields를 지정합니다 — 품목 표에는 children이 있는 array 필드를 포함합니다.
- 구조화 결과 읽기각 값은 bbox·vertices·match_ratio·bbox_source와 함께 반환되며, 페이지 내 모든 필드 위치를 담은 field_bboxes 맵도 제공됩니다 — 전각이나 세로쓰기도 포함해서요.
- 무엇이든 검증셀을 클릭하면 그 값을 읽어낸 정확한 영역이 강조됩니다. match_ratio가 0.85 미만이면 한 번 더 살펴볼 값입니다. 수정 사항은 원본 OCR 값 옆에 저장됩니다.
- 내보내기 또는 조회CSV(UTF-8 BOM이라 일본어가 깔끔하게 열림, 품목 펼쳐짐)를 다운로드하거나, 저장된 시트를 GET /view로 where·sort·select를 써서 조회합니다 — OCR 재실행도 추가 비용도 없습니다.
단순하고 예측 가능한 가격
이미지당 ₩100(¥10 / $0.05), 신용카드 없이 월 100회 스캔 무료 플랜 포함. 정액 플랜은 월 스캔 수·시트·저장공간을 추가합니다.