Amazon Textract 대안을 찾고 계신가요?
언제 Amazon Textract 대안을 골라야 하는지 공정하고 사실 검증된 시각으로 짚어봅니다 — 값마다 검증 가능한 좌표, 한중일(일본어/한국어/중국어) 지원, 조회 가능한 시트, 균일 가격, 그리고 AWS 설정 불필요까지, 실시간 데모로 직접 증명합니다.
Amazon Textract는 유능하고 성숙한 OCR 서비스이며, 영어 문서를 대량으로 처리하는 AWS 네이티브 파이프라인이라면 합리적인 기본 선택지입니다. 하지만 "유능하다"와 "당신의 업무에 딱 맞다"는 같은 말이 아니며, 몇 가지 실제 제약 때문에 사람들이 Amazon Textract 대안을 찾아 나서게 됩니다.
- 한중일(CJK) 미지원. Textract의 인쇄 텍스트, 양식, 표 기능은 라틴 문자 계열 언어(영어, 프랑스어, 독일어, 이탈리아어, 포르투갈어, 스페인어) 집합을 다룹니다. 손글씨, 영수증·청구서(AnalyzeExpense), 신분증(AnalyzeID), Queries는 영어 전용입니다. 일본어, 한국어, 중국어는 목록에 없습니다.
- AWS 중력. 이를 쓰려면 AWS 계정, IAM, SDK, 지원 리전, 그리고 대개 S3가 필요합니다 — 그저 이미지 하나 보내고 필드를 돌려받고 싶을 뿐이라면 만만치 않은 설정 비용입니다.
- 기능별로 쌓이는 페이지당 가격. 페이지 단위로 과금되며, 어떤 기능을 호출하느냐(일반 텍스트 vs. 양식 vs. 표 vs. queries vs. expense)에 따라 단가가 달라지고, 기능을 함께 쓰면 비용이 쌓입니다.
- 값 단위 검토용 UI가 기본 내장되어 있지 않음. Textract는 신뢰도 점수를 반환하며, 사람이 개입하는 검토는 직접 연동해야 하는 별도 서비스(Amazon Augmented AI / A2I)입니다.
이 가이드는 공정한 비교입니다 — Textract가 강한 지점은 어디이고, space-ocr 같은 대안이 어디에 맞는지 — 그리고 믿어야만 하는 기능 표가 아니라 실제로 직접 확인할 수 있는 실시간 데모로 시작합니다.
증거 먼저: 직접 확인할 수 있는 추출
대부분의 OCR 업체가 당신 앞에 절대 내놓지 않는 단 하나는, 모든 값이 페이지에서 나온 정확한 지점을 다시 가리키는 추출 결과입니다. 아래 어느 필드든 마우스를 올려 보세요 — 영수증 위의 박스가 그 값을 읽어낸 곳이며, 각 값은 실제로 페이지에서 얼마나 찾아냈는지를 나타내는 *일치 비율(match ratio)*을 함께 담고 있습니다.

Every value carries a verified on-page location — bbox + 4-point vertices + match_ratio — on a 0–1000 normalized grid (0,0 top-left → 1000,1000 bottom-right), the same shape the live API returns. Hover a field to trace it back to the pixels it came from.
Textract 대안을 평가할 때 비교할 것
두 도구 모두 문서를 읽어 좌표가 포함된 정형 데이터를 반환합니다. 차이는 값을 어떻게 검증하는지, 어떤 언어를 다루는지, 데이터가 도구에서 어떻게 빠져나오는지, 시작하는 데 무엇이 드는지에 있습니다. 아래 표는 각각에 대한 검증된 사실을 정리한 것이니, 당신의 업무에 대한 체크리스트로 활용하세요.
| 기능 | Amazon Textract | space-ocr |
|---|---|---|
| 바운딩 박스 | 예 — 블록마다 0–1로 정규화된 BoundingBox와 Polygon | 예 — 값마다 0–1000으로 정규화된 bbox와 방향이 있는 vertices |
| 값 단위 신뢰도 | 블록마다 인식 신뢰도(%) | match_ratio — 해당 값의 글자 중 실제로 페이지에서 찾아낸 비율 — 와 bbox_source 라벨 |
| 값 단위 검토 UI 내장 | Textract 자체에는 없음; 사람 검토는 별도 서비스(Amazon A2I) | 앱에 내장 — 셀을 클릭하면 원본에서 정확한 영역이 밝게 표시됨 |
| 영수증 / 청구서 필드 | AnalyzeExpense(별도 API), 영어 전용 | templateId receipt/invoice 또는 직접 정의한 fields, 지원되는 모든 언어로 |
| 품목(라인 아이템) | AnalyzeExpense 품목(ITEM / QUANTITY / PRICE) | children이 있는 array 필드, 각 셀이 개별 위치를 가짐 |
| 일본어 / 한국어 / 중국어 | 목록에 없음(라틴 문자 6개 언어; Expense/ID/손글씨는 영어 전용) | 하나의 엔진이 일본어, 한국어, 중국어, 영어 등을 자동 감지 |
| 조회 가능한 저장소 | 결과를 직접 저장하고 조회해야 함 | 저장된 시트를 GET /view(where, sort, select)로 서버 측에서 조회 — OCR 재실행 없음, 추가 비용 없음 |
| CSV 내보내기 | JSON에서 직접 만들어야 함 | 한 번의 클릭 — UTF-8 BOM, 품목 펼쳐짐 |
| 가격 모델 | 페이지당, 기능별 과금; 기능을 합치면 비용이 쌓임; AWS 계정 위에서 | 균일 이미지당 ¥10(약 $0.05); 무료 플랜 월 100회 스캔, 카드 불필요; Pro 월 $39 |
| 설정 | AWS 계정 + IAM + SDK, 리전 서비스, 대개 S3 | Bearer 키로 한 번의 HTTPS 호출; Claude Code 플러그인도 제공 |
"검증 가능"에 대하여: 좌표는 모델의 말만 믿고 가져온 것이 아닙니다. 언어 모델은 각 필드의 텍스트와 — 어떤 단어 토큰을 사용했는지에 대한 힌트를 — 반환하지만, 박스 자체는 절대 만들어내지 않습니다. 그다음 엔진이 그 텍스트를 비전 OCR이 페이지에서 실제로 검출한 심볼과 글자 단위로 대조하므로, 박스는 해당 글자들이 발견된 실제 픽셀 위에 놓이고, 각 값에는 얼마나 찾아냈는지를 나타내는 match_ratio가 부여됩니다(필드는 0.85 이상에서 확실히 매칭된 것으로 간주됩니다). 모델의 토큰 힌트는 노이즈가 있을 수 있어 — 반복되는 행 사이에서 토큰을 바꿔치기도 합니다 — 무작정 믿는 대신 열·행 일관성 검사로 이를 검증합니다. 핵심은 AI가 틀릴 수 없다는 게 아니라, 모든 값이 페이지와 다시 대조되며 얼마나 잘 일치했는지를 점수로 알려준다는 점입니다.
Textract가 더 나은 선택인 경우
공정한 비교라면 기존 강자가 이기는 지점도 짚어야 합니다. 다음과 같다면 Textract를 선택하세요.
- 이미 AWS에 깊이 들어가 있고, 이미 운영 중인 IAM과 SNS로 S3 → Lambda → Textract에 곧바로 끼워 넣을 수 있는 OCR을 원할 때.
- 문서가 영어 / 라틴 문자이고, 매우 큰 규모로 양식, 표, queries가 필요할 때.
- 자체 문서 유형으로 학습한 커스텀 어댑터나, AWS 네이티브 컴플라이언스·데이터 레지던시 보장을 원할 때.
여기에 해당한다면 Textract가 잘 맞으며, 대안으로 얻을 수 있는 이점은 거의 없습니다.
대신 space-ocr가 맞는 경우
Textract 대안은 다음 중 하나라도 중요할 때 제값을 합니다.
- 일본어, 한국어, 중국어 문서를 처리할 때. space-ocr는 한중일과 라틴 문자를 자동 언어 감지로 하나의 엔진에서 처리합니다 — 설정할 언어 파라미터가 없습니다.
- 그냥 믿는 게 아니라 검증하고 싶을 때. 모든 값이 페이지 내 박스와
match_ratio와 함께 반환되고, 셀을 클릭하면 읽어낸 위치가 정확히 강조됩니다 — 감사가 별도로 연동할 서비스가 아니라 기본 내장되어 있습니다. - 저장소를 직접 세우고 싶지 않을 때. 결과는 서버 측에서 조회(
GET /view)할 수 있고 한 번의 클릭으로 CSV로 내보낼 수 있는 시트에 담깁니다 — 데이터베이스도, AWS 계정도 필요 없습니다. - 예측 가능한 가격을 원할 때. 이미지당 균일 ¥10, 신용카드 없이 월 100회 스캔의 무료 플랜, 그리고 월 $39의 Pro 플랜 — 기능별 페이지 과금이 쌓이지 않습니다.
- Claude로 개발할 때. 두 줄짜리 Claude Code 플러그인과 의존성 없는 Python 클라이언트가 있습니다.
전체 호출은 단 한 번의 HTTP 요청입니다 — SDK도, 엔진을 위한 PDF 전처리도 없습니다(엔진은 래스터 이미지를 받습니다: JPEG, PNG, GIF, BMP, TIFF, WebP).
curl -s https://api.space-ocr.com/ocr/fields \
-H "Authorization: Bearer $SPACE_OCR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"image": "https://example.com/invoice.jpg",
"imageType": "url",
"templateId": "invoice"
}'각 값은 bbox(0–1000 격자 위의 { xmin, ymin, xmax, ymax }), 기울어진 휴대폰 사진을 따라가는 방향이 있는 박스를 위한 네 개의 vertices, match_ratio, 그리고 bbox_source와 함께 돌아옵니다. 전체 좌표 모델은 바운딩 박스를 제공하는 OCR API를 참고하세요. 비동기·웹훅 기반 측면은 청구서 데이터 추출 API 가이드를 참고하세요.
언어: 가장 분명한 갈림선
문서가 일본어 영수증, 한국어 청구서, 중국어 양식이라면 대개 이것이 결정적 요인입니다. Textract의 인쇄 텍스트, 양식, 표 기능은 라틴 문자 6개 언어를 지원하고, 손글씨, AnalyzeExpense, AnalyzeID, Queries 기능은 영어 전용입니다 — 일본어, 한국어, 중국어는 지원 목록에 없습니다. space-ocr는 여러 문자 체계(전각·반각 문자, 하이픈 변형, 한중일 띄어쓰기, 세로쓰기 한자, 혼합 문자)를 하나의 엔진에서 정규화하며, 넘길 힌트 없이 언어를 자동으로 감지합니다.
가격: 기능별 페이지 과금 vs. 균일한 이미지당 단가
Textract는 기능에 따라 단가가 달라지는 페이지당 사용량 기반 가격을 씁니다 — 일반 텍스트 검출은 양식, 표, queries, AnalyzeExpense와 다르게 과금되고, 한 페이지에 여러 기능을 호출하면 비용이 쌓이며 — 이 모든 것이 AWS 계정 위에 얹힙니다. space-ocr는 몇 개의 필드를 뽑든 균일 이미지당 ¥10(약 $0.05)이며, 신용카드 없이 월 100회 스캔의 무료 플랜과 1,100회 스캔, 팀 공유, 100 GB 저장 공간을 포함하는 월 $39의 Pro가 있습니다. 추출 실패는 과금되지 않으며, 저장된 시트 조회(GET /view)는 무료입니다.
Textract 대안으로 space-ocr 써보는 방법
- 키 받기 — AWS 계정 불필요무료 플랜(신용카드 없이 월 100회 스캔)에 가입하고 spocr_ API 키를 받으세요. 설정할 IAM도, 리전도, S3도 없습니다.
- 이미지 보내기문서를 imageType 'url' 또는 'base64'로 /ocr/fields에 POST 합니다. 엔진은 래스터 이미지(JPEG, PNG, GIF, BMP, TIFF, WebP)를 받으며, 언어는 자동으로 감지됩니다.
- 템플릿이나 직접 정의한 필드 사용하기흔한 경우에는 templateId 'receipt' 또는 'invoice'를 넘기거나, 직접 fields를 제공하세요 — 품목을 위한 children이 있는 array 필드를 포함할 수 있습니다.
- 각 값 검증하기각 값의 bbox, vertices, match_ratio, bbox_source를 읽으세요. 앱에서 셀을 클릭하면 그것을 읽어낸 위치가 정확히 강조됩니다. 0.85 미만의 match_ratio는 한 번 더 살펴볼 값으로 표시됩니다.
- 조회하거나 내보내기 — 만들 저장소 없음/upload로 이미지를 시트에 밀어 넣고, GET /view(where, sort, select)로 서버 측에서 조회하거나, 품목이 펼쳐진 CSV를 다운로드하세요 — 데이터베이스도, OCR 재실행 비용도 없습니다.
무료로 쓸 수 있는 Amazon Textract 대안이 있나요?
Textract가 목록에 올리지 않은 일본어, 한국어, 중국어를 space-ocr는 지원하나요?
OCR이 추출한 내용을 어떻게 검증할 수 있나요?
space-ocr를 쓰려면 AWS 계정이 필요한가요?
space-ocr가 AnalyzeExpense처럼 영수증·청구서 품목을 추출할 수 있나요?
검증 가능한 Textract 대안을 내 문서로 직접 써보세요
무료 플랜 — 월 100회 스캔, 신용카드 불필요, AWS 계정 불필요. 모든 값이 페이지 내 위치와 일치 비율과 함께 돌아옵니다.