Core Concepts
DLoRA-TrOCR은 사전 학습된 OCR 트랜스포머 모델을 효율적으로 미세 조정하여 다양한 하위 작업에서 뛰어난 성능을 발휘합니다.
Abstract
이 연구는 혼합 텍스트 인식에 대한 근본적인 문제에 초점을 맞추고 있습니다. 이를 위해 저자들은 사전 학습된 OCR 트랜스포머 모델을 기반으로 하는 매개변수 효율적인 하이브리드 텍스트 인식 방법인 DLoRA-TrOCR을 제안했습니다.
DLoRA-TrOCR은 이미지 인코더에 DoRA를 적용하고 텍스트 디코더에 LoRA를 적용하여 효율적인 매개변수 미세 조정을 달성합니다. 실험 결과, 유사한 매개변수 조정 방법과 비교할 때 DLoRA-TrOCR은 매개변수 수가 가장 적으면서도 성능이 더 우수한 것으로 나타났습니다. 또한 혼합 필기, 인쇄 및 거리 보기 텍스트를 동시에 인식하는 복잡한 장면 데이터셋에서 최신 기술 수준의 성능을 달성할 수 있었습니다.
Stats
혼합 데이터셋에서 DLoRA-TrOCR의 정확도는 84.63%에 달했습니다.
유사한 매개변수 조정 방법과 비교할 때 DLoRA-TrOCR은 매개변수 수가 가장 적었습니다.
Quotes
"DLoRA-TrOCR은 사전 학습된 OCR 트랜스포머 모델을 효율적으로 미세 조정하여 다양한 하위 작업에서 뛰어난 성능을 발휘합니다."
"실험 결과, 유사한 매개변수 조정 방법과 비교할 때 DLoRA-TrOCR은 매개변수 수가 가장 적으면서도 성능이 더 우수한 것으로 나타났습니다."