본 원고는 최근 기업들이 AI를 업무에 도입하는 흐름에서 기업들의 OCR 도입 배경과 기존 Rule기반의 OCR과 AI기반 OCR의 차이점을 문자 인식 항목관점에서 설명한다. 이후 AI OCR을 기업에서 구축하기 위한 On-Premise 구축절차를 설명하고, 이를 기반으로한 AI OCR을 도입 및 구축한 기업에서의 사례를 기술하고, 마지막으로 AI OCR의 기업도입 시 업무관점에서의 기대효과와 향후 AI OCR의 연구방향에 대해 설명한다. |
I. 기업들의 OCR 도입 배경
최근 AI 부각에 따라 AI를 활용한 자동화 영역에 대한 관심이 매우 증가하고 있다. 보통 기업들이 디지털 트랜스포메이션이라는 이름으로 해당 과업들을 추진중이며, 특히나 실제 업무에서의 영역을 자동화하기위한 RPA(Robotics Process Automation) 사업들이 디지털트랜스포메이션이라는 주제하에 적극 추진 및 수행되고 있다. 이중 RPA에서의 핵심적인 자동화 기술인 OCR 시장 또한 RPA 시장의 확장과 더불어 비례하여 성장하고 있다. 아래 그림 1은 미 스테이티스타에서 조사한 RPA 시장규모를 설명하는데, 2021년 전 세계 RPA 시장 매출은 54억달러이며 2023년에는 100억달러를 넘는 규모로 조사되었다.
<자료> 스테이티스타, “글로벌 RPA 시장 추이”, 2022.
[그림 1] 글로벌 RPA시장 추이(2022)
RPA시장이 OCR과 비례한 이유는 아래 그림2와 같이 대부분의 기업에서 디지털트랜스포메이션을 추진할 때 RPA를 수행하며, RPA에서의 문자 추출기능영역이 OCR에서 활용되기 때문이다.
<자료> 자체제작, “RPA와 디지털트랜스포메이션에서의 OCR 영역”, 2023.
[그림 2] RPA와 디지털트랜스포메이션에서의 OCR 영역
II. OCR과 AI OCR의 차이
최근 OCR은 다양한 문서 형식에도 더 유연한 대응을 위해 AI 기반 OCR 기술이 요구되고 있다. 기존의 OCR은 Rule Based 이기에 좌표 기반으로 사람이 직접 특정 위치의 문서를 파싱하는 규칙을 구현하여 개발되었으며 이럴 경우 정해진 포맷에서는 매우 높은 인식율을 보이나 문서 양식이 조금만 바뀌더라도 인식율이 급격히 저하된다. 이에 비해 AI 기반 OCR은 데이터 학습을 기반으로 문자 인식을 수행하기 때문에 일부분 학습 문서에서 변형이 있더라도 급격한 인식율 저하를 막을 수 있다.
[표 1] OCR과 AI OCR의 비교
비교항목 | OCR | AI기반 OCR |
---|---|---|
문자 인식 방식 | – Rul Based로 정해진 위치 혹은 정해진 키워드로 Replace 혹은 Find 수행 | – 영상처리 및 자연어처리 AI 모델을 활용하여 통계기반으로 문자열의 위치를 파악 |
문서 분류 방식 | – 연계 프로그램등에서 명시적으로 전달해줘야함 | – 학습된 데이터를 기반으로 자동으로 분류 |
활용 알고리즘 | – find, Replace 등의 텍스트처리 알고리즘 활용 | – BERT, 트랜스포머, GPT 등의 딥러닝 활용 |
정의된 문서에서의 성능 | – 정의된 문서형식에서는 97프로 이상의 성능 | – 정의된 문서에서 95프로 정도의 성능(휴리스틱) |
노이즈환경에서의 성능 | – 문서 형식 변경시 급격한 성능 저하 발생 | – 문서 형식 변경 시 성능이 저하되지만 노이즈에 따라 선형적임 |
<자료> 집필진 자체제작(2023)
III. AI OCR의 기업에서의 구축절차
AI OCR의 구축은 크게 API형과 서버형이 가능하다. 대부분의 기업들은 기업 내 데이터에 대한 유출우려로 인해 On-Premise 사업으로써 서버형 구축을 선호하며, AI OCR에서의 가장 중요한 데이터에 대해서도 주로 기업 내에서 개인정보 마스킹 및 학습을 요구하고 있다.
아래 [그림 3]은 일반적인 AI OCR의 기업내 구축을 위한 절차이다. 마지막 5번에서 테스트 이후 실제 고객사에 설치/구축을 수행한다.
<자료> 자체제작, “RPA와 디지털트랜스포메이션에서의 OCR 영역”, 2023.
[그림 3] AI OCR 구축절차
AI OCR 개발 시 첫 번재로는 구축 요구사항에 대한 분석을 수행하며, 이후 OCR 인식 필드에대한 정의를 수행한다. 필드정의서를 기반으로 별도의 데이터 라벨링(지도학습을 위한)을 수행하며, 이후 라벨링된 데이터를 기반으로 데이터 학습을 통해 AI OCR 모델을 개발한다. 마지막 다섯 번째 단계에서 모델이 최종적으로 개발되며 고객사 설치 및 API 제공을 위한 패키징과 테스트 작업을 거친 후 구축이 완료된다.
[표 2] AI OCR 구축절차별 고려사항
절차 | 주요 액션 | 고려사항 |
---|---|---|
1. 요구사항 분석 | – OCR 인식 대상 항목의 확정 – OCR과 레거시 시스템과의 연동방식 정의 – 데이터 수령 방식 및 수량 정의 | – 분류할 항목들에 대한 명확한 정의 필요. – 레거시 시스템과의 API 기반 연동방식에 대해 사전에 명확화 해야함 – 최소한 하나의 필드 학습을 위해서 해당 필드가 포함된 문서가 100장 이상은 필요함. |
2. 필드정의서 작성 | – 인식 대상 필드 정의 – 인식 대상 분류 데이터에 대한 정의 | – 인식 대상 필드 단위 자료구조를 정의해야함 – 분류 코드나 필드별 코드를 정의함 |
3. 데이터 라벨링 | – 데이터 분류에 대한 문서별 학습데이터 라벨링 – 문서 내 인식 필드에 대한 데이터 라벨링 | – 라벨링 가이드작성은 필수 – 라벨링이 제대로 되었는지 샘플들을 통해 AI개발자들과 검수 작업 필수 |
4. 데이터 학습 | – 딥러닝 알고리즘 활용한 데이터 학습 – Precision, Recall 등 평가성능 도출 | – 최초 고객과 협의된 OCR인식 성능 도출 확인 필요. – 정답지 샘플을 미리 만들어놓고 모델과 결과값 비교하여 인식율 체크해야함 |
5. 모델 개발 | – 모델 최적화 – 설치를 위한 패키징 작업 – 성능 테스트 | – 패키징 이후 처리 성능 검수 필수 – API 동작 여부 확인 – 4번에서 확인한 인식율과 결과 비교 |
IV. AI OCR 기업에서의 구축사례
2022년부터 최근까지 AI OCR에 대한 수요가 급증하여 금융권, 생명사, 공공기관 등에서 주로 구축되고 있다. 대부분의 AI OCR 구축의 목적은 기존에 수기로 입력하던 필기체, 인쇄체 문서에 대해서 자동으로 인식하여 DB화를 진행하거나 레거시 업무시스템 상에 입력자동화를 구현하는데에 목적이 있다.
아래 [그림 4]는 AI OCR의 도입 사례이다. 주로 금융권과 생명사 등 숫자 데이터 등의 신뢰성이 중요한 분야에서 도입을 하고 있다.
<자료> 자체제작, “AI OCR 도입 사례”, 2024.
[그림 4] AI OCR 도입 사례
AI OCR 도입 시 금융권은 주로 감사 및 심사 등에서의 업무에 문서들을 자동으로 분류/항목추출을 위해 도입되었으며, 생명사는 보험금 지급/심사 등의 업무를 위한 문서 자동화(보험금청구서, 진단서류)분야에 AI OCR을 도입하였다. 또한 공공기관은 기존 국가기록물에 대한 DB화 및 특허심판, 건강보험 심사 시 문서 분류/항목 추출등에 대해 자동화를 진행하였다.
[표 3] AI OCR 도입사례별 도입내용
도입 분야 | AI OCR 도입 업무 |
---|---|
금융권 | – 은행 지점감사 업무 자동화 – 대출심사 자동화 – 신용/담보평가 자동화 신분증 인식 자동화 |
생명사 | – 보험금 심사 자동화 – 보험금 지급 자동화 – 보험금 청구 자동화 |
공공기관 | – 특허심판방식자동화 – 건강보험심사시 문서 분류 자동화 – 타자기록 AI OCR 기반 DB화 |
V. AI OCR의 도입 시 기업의 기대효과와 향후연구
AI OCR의 기업에서의 도입으로 인해 기존에 수동으로 데이터를 입력하거나 분류해야했던 작업들을 자동으로 대체한다는데에 의의가 있다. 또한 입력 실수들로 인한 문제 예방과 더불어 상시 동작이 가능한 환경으로 인해 시간에 구애받지 않고 작업을 수행할 수 있다는 장점으로 인해 금융권/공공 등에서 적극적으로 도입하고 있다. 아래 [그림 4]의 기대효과 항목은 국내 모 금융/보험사에서 실제 구축 전과 후로 기대했던 기대효과이며 구축 이후로도 인건비측면에서 많은 비용절감이 일어나고 있다.
<자료> 자체제작, “RPA와 디지털트랜스포메이션에서의 OCR 영역”, 2023.
[그림 5] AI OCR 도입 시 기업 기대효과
AI OCR의 향후 연구방향은 크게 3가지의 주제로 진행 중이다. 이 중에서도 특히 2가지 주제가 가장 실수요와 더불어 우선순위가 높은 주제인데, “다양성이 높은 필기체에 대한 문자 인식 성능향상”과 “테이블 데이터 내 다양한 케이스(Merge, 개행 등)”에 대해 어떻게 인식율을 높일지에 대한 부분 등이 가장 연구 우선순위가 높은 과제들이다.
이와 더불어 시장 발굴 측면에서는 최근 부각되고 있는 생성형 비즈니스와 LLM 들을 통해 OCR이 어떤 부가가치를 낼 수 있는지 등도 비즈니스 측면에서 중요해지고 있다.
[표 4] AI OCR의 향후 연구방향
연구방향 | 상세 설명 |
---|---|
필기체의 성능 향상을 위한 다양한 AI 모델들의 결합 | • 필기체에 대한 실제 RPA 도입 시 수요가 매우 높음에 따라 필기체 성능을 높이기 위한 목표로 많은 업체들이 연구중 |
테이블 내부의 병합 등 테이블데이터에 대한 인식률 향상 | • 테이블 내 많은 데이터들에 대해서 누락없이, 병합된 항목에서의 데이터도 읽는것을 목표로 개발 • 위치값 기준으로 칼럼 간 관계 기반으로 OCR 수행하도록 연구중 |
줄글 문서들에 대한 인식율 향상 연구 | • 비정형에 가까운 줄글로 된 텍스트들에 대해서도 기술적인 챌린지가 존재함, 띄어쓰기와 개행에 대한 연속적으로 개체를 잡아내는 문제에 대한 연구 진행 중 |
[참고문헌]
[1] “The Life Millennium: The 100 Most Important Events and People of the Past 1000 Years,” Bulfinch Pr; 1st ed edition, Sep. 1. 1998.