본 연구 논문에서는 미국 수화(ASL) 인식 모델의 성능 향상을 위해 미국 수화 지식 그래프(ASLKG)를 구축하고 활용하는 방법을 제시합니다.
연구팀은 8개의 미국 수화 언어학 관련 지식 베이스와 4개의 영어 어휘 의미론 관련 지식 베이스를 활용하여 5,802개의 수화 표현과 관련된 71,000개 이상의 언어학적 사실을 담고 있는 ASLKG를 구축했습니다. ASLKG는 수화 표현, 영어 단어, 음운론적 특징, 의미론적 특징 등 다양한 정보를 포함하고 있으며, 이를 통해 수화 인식 모델의 학습 및 추론 과정을 개선할 수 있습니다.
연구팀은 ASLKG를 활용하여 수화 인식, 의미론적 특징 인식, 주제 분류 등 세 가지 주요 과제에 대한 신경 기호적 모델을 학습하고 평가했습니다.
수화 인식 과제에서는 ASLKG의 음운론적 특징 정보를 활용하여 수화 영상에서 특정 수화 표현을 인식하는 모델을 학습했습니다. 그 결과, 기존 end-to-end 모델 대비 최대 25.2% 향상된 92%의 정확도를 달성했습니다.
의미론적 특징 인식 과제에서는 ASLKG의 음운론적 특징과 의미론적 특징 간의 관계 정보를 활용하여 기존에 학습되지 않은 수화 표현의 의미를 예측하는 모델을 학습했습니다. 그 결과, 평균 14%의 정확도로 수화 표현의 의미론적 특징을 인식하는 결과를 보였습니다.
주제 분류 과제에서는 유튜브 ASL 영상 데이터를 활용하여 영상의 주제를 분류하는 모델을 학습했습니다. ASLKG의 음운론적 특징, 수화 표현, 의미론적 특징 정보를 활용하여 영상의 의미를 파악하고 주제를 분류한 결과, 기존 모델 대비 15% 향상된 36%의 정확도를 달성했습니다.
본 연구는 ASLKG를 구축하고 이를 활용하여 수화 인식 모델의 성능을 향상시키는 방법을 제시했다는 점에서 의의가 있습니다. 특히, 기존 end-to-end 모델 대비 높은 정확도를 달성했을 뿐만 아니라, 모델의 설명 가능성을 향상시켰다는 점에서 주목할 만합니다.
하지만, ASLKG는 표준 미국 수화를 기반으로 구축되었기 때문에 다양한 방언이나 개인별 수화 표현의 차이를 충분히 반영하지 못했다는 한계점이 있습니다. 또한, 수화 음운론의 복잡성을 완벽하게 모델링하지 못했으며, 영어 데이터에 의존하여 의미론적 정보를 구축했다는 점도 한계로 지적됩니다.
향후 연구에서는 ASLKG에 다양한 방언 및 개인별 수화 표현 정보를 추가하고, 수화 음운론 모델을 개선하여 모델의 성능을 더욱 향상시킬 필요가 있습니다. 또한, 수화 데이터 자체만을 활용하여 의미론적 정보를 구축하는 방법을 모색해야 합니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문