본 연구는 다중 모달 개체명 인식(MNER) 및 그라운드 다중 모달 개체명 인식(GMNER) 작업을 위한 SCANNER 모델을 제안한다. SCANNER는 두 단계로 구성되어 있다.
1단계에서는 문장에서 개체 후보를 추출한다. 2단계에서는 이 개체 후보를 활용하여 다양한 지식 소스(이미지 캡션, 위키피디아, 객체 지식 등)로부터 관련 지식을 수집하고, 이를 바탕으로 개체 인식 및 시각적 그라운딩을 수행한다.
이를 통해 학습 데이터에 없는 개체에 대해서도 효과적으로 인식할 수 있다. 또한 노이즈가 있는 데이터셋에 대한 강건성을 높이기 위해 새로운 self-distillation 기법인 "Trust Your Teacher"를 제안한다.
실험 결과, SCANNER는 NER, MNER, GMNER 벤치마크에서 우수한 성능을 보였다. 특히 GMNER 작업에서 기존 방법 대비 21% 이상 향상된 성능을 달성하였다.
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Hyunjong Ok,... ที่ arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01914.pdfสอบถามเพิ่มเติม