space ocr
가이드아티클요금문서
Japanese OCR

확인할 수 있는 데이터로 바꾸는 일본어 OCR

space-ocr로 일본어 영수증·세금계산서·납품서를 읽으세요. 혼합 스크립트, 전각·세로쓰기 처리, 깨지지 않는 CJK 안전 CSV, 모든 값이 위치와 일치 점수와 함께 반환됩니다.

일본어는 평범한 OCR이 조용히 무너지는 지점입니다. 영수증 한 장에 한자·가나·반각 가타카나·전각 숫자, 거기에 가끔 영어까지 섞이고, 합계는 오른쪽 가장자리 세로 칸에 적혀 있기도 합니다. 대부분의 도구는 먼저 언어를 고르게 하거나, 레이아웃을 잃은 평평한 텍스트 덩어리를 돌려줍니다. 정말 쓸모 있는 일본어 OCR은 그 모든 것을 한 번에 읽고, 각 숫자가 어디서 왔는지 알려줘야 합니다.

space-ocr는 둘 다 합니다. JP 문서를 읽어 구조화된 필드를 돌려주고, 모든 값을 페이지에서 읽어낸 정확한 위치와 함께 반환합니다 — 눈에 보이는 박스와, 텍스트가 페이지에서 검출된 문자와 얼마나 일치했는지를 나타내는 점수까지요. 언어 감지는 자동이라 설정할 힌트가 없고, 일본어·한국어·중국어·영어를 한 엔진이 함께 처리합니다.

직접 검증할 수 있는 실제 일본어 추출

아래 어느 항목이든 마우스를 올려 보세요. 여기서 읽은 영수증 두 장은 실제 데이터입니다 — 합계 2,045의 KINSHO 布施店 영수증과 합계 4,286의 ライフ 国分店 영수증, 둘 다 2019년 8월 날짜입니다. 값·박스·일치 점수는 모두 실제 파싱 결과에서 읽어온 것으로 목업이 아니며, 박스는 한자·가나·숫자가 섞인 각 줄을 따라갑니다.

Receipts with extracted-field bounding boxes
Verified fields
KINSHO · 合計 2,045
ライフ · 合計 4,286

Each value with a box carries a verified on-page location — bbox + 4-point vertices + match_ratio — on a 0–1000 normalized grid (0,0 top-left → 1000,1000 bottom-right), the same shape the live API returns. Hover a field to trace it back to the pixels it came from.

언어 감지는 자동
고를 언어 힌트가 없습니다. 저비용 비전 패스가 스크립트를 감지해 라우팅하므로, 일본어·한국어·중국어·영어가 아무것도 지정하지 않아도 같은 엔진을 통과합니다.
전각·세로쓰기·혼합 스크립트
한자·히라가나·가타카나·반각 가나·전각 숫자·영어가 같은 줄에 있어도 함께 정규화합니다. 세로 칸은 텍스트 흐름으로 감지해 올바른 행으로 묶습니다.
깨지지 않는 CJK 안전 CSV
내보내기는 UTF-8 BOM CSV라 店舗名·合計·상품명이 Excel에서 깨지지 않고 제대로 열립니다. 품목은 하위 행으로 펼쳐집니다.
모든 값에 위치 정보
각 필드는 바운딩 박스(0–1000 그리드의 xmin/ymin/xmax/ymax), 방향이 있는 네 꼭짓점, match_ratio를 반환합니다 — 2,045가 영수증 위 정확한 위치까지 추적됩니다.
실제 JP 문서, 품목까지
영수증·세금계산서·납품서가 합계·날짜·점포명과 함께, 품목 한 줄마다 반복 행으로 돌아옵니다. 각 셀은 줄바꿈돼도 자기 위치를 지킵니다.
휴대폰 사진도 OK
로드 시 EXIF 회전을 적용하고 박스가 문서 기울기를 따라가, 비스듬히 찍은 구겨진 영수증도 깔끔하게 맞습니다.

space-ocr의 일본어 OCR 작동 방식

LLM은 좌표를 만들지 않습니다. 문서를 읽어 각 값과 사용한 word-token ID를 반환하고, 먼저 문자 매처가 돌아서 그 문자를 Vision이 실제로 페이지에서 검출한 심볼과 대조합니다. 그 매칭이 박스·회전 네 꼭짓점·match_ratio를 만들고, token ID는 보조 오버라이드입니다. 그래서 같은 숫자의 전각·반각이 하나의 값으로 정리되고, 모든 필드에 신뢰 점수가 붙어 그대로 믿어야 하는 숫자가 아니라 확인할 수 있는 값을 얻습니다.

앱에 PDF를 끌어다 놓으면 각 페이지가 먼저 이미지로 렌더링된 뒤 읽힙니다 — 여러 페이지 세금계산서나 납품서에 편리합니다. API를 직접 호출한다면 페이지 이미지를 보내세요(공개 API는 래스터 이미지를 받습니다 — JPEG·PNG·GIF·BMP·TIFF·WebP). 돌아오는 구조화 결과는 동일합니다. receipt·invoice·delivery 같은 내장 templateId를 넘기거나, 품목에 children을 가진 array 필드를 포함해 직접 fields를 정의하세요.

일본어 영수증 이미지에서 필드 추출
1
2
3
4
5
6
7
8
curl -s https://api.space-ocr.com/ocr/fields \
  -H "Authorization: Bearer $SPACE_OCR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "image": "https://example.com/receipt-jp.jpg",
    "imageType": "url",
    "templateId": "receipt"
  }'

일본어 문서를 OCR하는 방법

  1. 문서 추가
    앱에 영수증·세금계산서·PDF를 끌어다 놓으면 각 페이지가 이미지로 렌더링되어 OCR 대기열에 들어갑니다. API에서는 페이지 이미지(url 또는 base64)를 /ocr/fields에 보냅니다. 언어 설정은 필요 없습니다.
  2. 템플릿 또는 필드 선택
    'receipt'·'invoice'·'delivery' 같은 내장 templateId를 넘기거나, 직접 fields를 지정합니다 — 품목 표에는 children이 있는 array 필드를 포함합니다.
  3. 구조화 결과 읽기
    각 값은 bbox·vertices·match_ratio·bbox_source와 함께 반환되며, 페이지 내 모든 필드 위치를 담은 field_bboxes 맵도 제공됩니다 — 전각이나 세로쓰기도 포함해서요.
  4. 무엇이든 검증
    셀을 클릭하면 그 값을 읽어낸 정확한 영역이 강조됩니다. match_ratio가 0.85 미만이면 한 번 더 살펴볼 값입니다. 수정 사항은 원본 OCR 값 옆에 저장됩니다.
  5. 내보내기 또는 조회
    CSV(UTF-8 BOM이라 일본어가 깔끔하게 열림, 품목 펼쳐짐)를 다운로드하거나, 저장된 시트를 GET /view로 where·sort·select를 써서 조회합니다 — OCR 재실행도 추가 비용도 없습니다.

단순하고 예측 가능한 가격

이미지당 ₩100(¥10 / $0.05), 신용카드 없이 월 100회 스캔 무료 플랜 포함. 정액 플랜은 월 스캔 수·시트·저장공간을 추가합니다.

Free
₩0
  • 100 스캔/월
  • 3 시트
  • 1 GB 저장공간
무료 — 카드 불필요
Starter
₩29,800/월
  • 400 스캔/월
  • 10 시트
  • 10 GB 저장공간
무료로 시작
가장 인기
Pro
₩69,800/월
  • 1,100 스캔/월
  • 시트 무제한
  • 100 GB 저장공간
무료로 시작
문서가 일본어라고 지정해야 하나요?
아니요. 언어 감지는 자동이라 설정할 언어 힌트나 선택지가 없습니다. 저비용 비전 패스가 스크립트를 감지해 라우팅하므로, 일본어·한국어·중국어·영어가 한 엔진을 통과합니다. 그것들이 섞인 문서도 마찬가지입니다.
전각 문자와 세로쓰기도 처리하나요?
네. 한자·히라가나·가타카나·반각 가나·전각 숫자·영어가 같은 줄에 있어도 함께 정규화하고, 세로 칸은 텍스트 흐름으로 감지해 올바른 행으로 묶습니다. 반환되는 박스는 방향과 상관없이 각 줄을 따라갑니다.
CSV로 내보내면 일본어가 깨지나요?
깨지지 않습니다. CSV는 UTF-8 BOM으로 작성되어 店舗名·合計·상품명이 Excel에서 제대로 열리고, 품목은 하위 행으로 펼쳐집니다. REST API의 JSON도 같은 값을 그대로 보존합니다.
일본어 OCR이 각 값의 위치를 보존하나요?
네. 각 값은 바운딩 박스(0–1000 정규화 그리드의 xmin/ymin/xmax/ymax), 문서 기울기를 따르는 네 꼭짓점, match_ratio와 함께 반환됩니다. match_ratio가 0.85 이상이면 확실한 매칭으로 보고, 1.0은 모든 글자를 페이지에서 찾았다는 뜻입니다.
어떤 일본어 문서를 읽을 수 있나요?
영수증·세금계산서·납품서·명함·신분증·자유 양식 폼의 래스터 이미지입니다. `receipt`·`invoice`·`delivery` 같은 내장 templateId를 적용하거나, 직접 fields를 정의하세요 — 품목 표에는 children이 있는 array 필드를 포함합니다.
일본어 OCR 비용은 얼마인가요?
이미지당 $0.05(¥10 / ₩100)이며, 신용카드 없이 월 100회 스캔 무료 플랜이 있습니다. 정액 플랜(Starter·Pro)은 월 스캔 수·시트·저장공간을 추가합니다 — 위 요금표를 참고하세요.

내 일본어 문서를 직접 확인 가능한 데이터로

무료 플랜 — 월 100회 스캔, 신용카드 불필요. 모든 값이 페이지 내 위치와 함께 돌아옵니다.

관련