핵심 개념
본 연구는 다양한 지식 소스를 활용하여 보편적이고 강건한 다중 모달 개체명 인식 모델을 제안한다. 특히 학습 데이터에 없는 개체를 효과적으로 인식할 수 있도록 설계되었다.
초록
본 연구는 다중 모달 개체명 인식(MNER) 및 그라운드 다중 모달 개체명 인식(GMNER) 작업을 위한 SCANNER 모델을 제안한다. SCANNER는 두 단계로 구성되어 있다.
1단계에서는 문장에서 개체 후보를 추출한다. 2단계에서는 이 개체 후보를 활용하여 다양한 지식 소스(이미지 캡션, 위키피디아, 객체 지식 등)로부터 관련 지식을 수집하고, 이를 바탕으로 개체 인식 및 시각적 그라운딩을 수행한다.
이를 통해 학습 데이터에 없는 개체에 대해서도 효과적으로 인식할 수 있다. 또한 노이즈가 있는 데이터셋에 대한 강건성을 높이기 위해 새로운 self-distillation 기법인 "Trust Your Teacher"를 제안한다.
실험 결과, SCANNER는 NER, MNER, GMNER 벤치마크에서 우수한 성능을 보였다. 특히 GMNER 작업에서 기존 방법 대비 21% 이상 향상된 성능을 달성하였다.
통계
학습 데이터에 없는 개체에 대해 BERT-base 모델은 F1 점수가 80.90인 반면, SCANNER(지식 미사용)는 89.68을 달성했다.
SCANNER(지식 미사용)의 Twitter-2015 데이터셋 F1 점수는 73.84로, BERT-base 모델의 57.81보다 크게 향상되었다.
SCANNER(지식 미사용)의 Twitter-2017 데이터셋 F1 점수는 82.96으로, BERT-base 모델의 67.76보다 크게 향상되었다.
인용구
"본 연구는 다양한 지식 소스를 활용하여 보편적이고 강건한 다중 모달 개체명 인식 모델을 제안한다."
"SCANNER는 두 단계로 구성되어 있으며, 1단계에서 개체 후보를 추출하고 2단계에서 다양한 지식 소스를 활용하여 개체 인식 및 시각적 그라운딩을 수행한다."
"Trust Your Teacher 기법을 통해 노이즈가 있는 데이터셋에 대한 강건성을 높였다."