핵심 개념
이 연구에서는 소스 도메인 데이터에 대한 접근 없이 질문 답변 모델을 타겟 도메인에 적응시키는 새로운 자기 학습 기반 접근법을 제안한다. 이를 위해 특별히 설계된 마스크 모듈을 활용하여 도메인 지식을 효과적으로 보존하고 도메인 간 차이를 완화한다.
초록
이 연구는 소스 도메인 데이터에 대한 접근 없이 질문 답변 모델을 타겟 도메인에 적응시키는 새로운 접근법을 제안한다. 주요 내용은 다음과 같다:
-
마스크 모듈: 소스 도메인 학습 시 자동으로 도메인 지식을 선별적으로 학습하고, 타겟 도메인 적응 시 이를 보존하면서 도메인 차이를 완화하는 마스크 모듈을 설계하였다.
-
자기 학습: 타겟 도메인의 레이블 없는 데이터를 활용하여 자기 학습을 수행함으로써 도메인 차이를 극복하고자 하였다.
-
실험 결과: 벤치마크 데이터셋에서 제안 방법이 기존 방법들을 크게 능가하는 성능을 보였다. 특히 소스 데이터에 대한 접근이 없는 상황에서도 우수한 성능을 달성하였다.
통계
소스 도메인 데이터셋 SQuAD를 활용하여 질문 답변 모델을 학습하였다.
타겟 도메인 데이터셋으로 HotpotQA, Natural Questions, NewsQA, BioASQ를 사용하였다.
타겟 도메인 데이터에서 약 1,000개의 레이블 없는 샘플을 무작위로 선택하여 실험하였다.
인용구
"이 연구에서는 소스 도메인 데이터에 대한 접근 없이 질문 답변 모델을 타겟 도메인에 적응시키는 새로운 자기 학습 기반 접근법을 제안한다."
"이를 위해 특별히 설계된 마스크 모듈을 활용하여 도메인 지식을 효과적으로 보존하고 도메인 간 차이를 완화한다."