核心概念
사전 학습된 딥 트랜스포머 인코더에서 도메인 불변 특징과 핵심 토큰 표현을 선별하여 과잉 상관관계를 완화함으로써 Out-of-Distribution 텍스트 분류 성능을 향상시킨다.
要約
이 연구는 Out-of-Distribution 텍스트 분류 문제에 초점을 맞추고 있다. 기계 학습 모델은 훈련 도메인과 다른 도메인의 데이터에 적용할 때 성능이 저하되는 문제가 있다. 이를 해결하기 위해 저자들은 IMO(Invariant features Masks for Out-of-Distribution)라는 새로운 방법을 제안한다.
IMO는 사전 학습된 딥 트랜스포머 인코더에서 도메인 불변 특징과 핵심 토큰 표현을 선별하는 방식으로 작동한다. 구체적으로:
- 상위 레이어의 토큰 표현에서 도메인 불변 특징을 식별하는 마스크 레이어를 학습한다. 이 마스크 레이어는 하위 레이어로 내려가면서 순차적으로 학습된다.
- 상위 레이어의 선별된 특징을 활용하여 토큰 수준의 어텐션 메커니즘을 통해 예측에 유용한 토큰을 식별한다.
이를 통해 과잉 상관관계를 완화하고 도메인 불변 표현을 학습할 수 있다. 저자들은 다양한 실험을 통해 IMO가 강력한 베이스라인들을 크게 능가하는 성능을 보여줌을 입증한다.
統計
훈련 데이터 크기가 작을 때(1k)에도 IMO 모델은 성능 저하가 크지 않지만, IMO를 사용하지 않는 모델은 성능이 크게 떨어진다.
IMO 모델은 훈련 데이터 크기가 3.6M일 때 92.36%의 평균 정확도를 달성하지만, IMO를 사용하지 않는 모델은 87.69%에 그친다.
引用
"기계 학습 모델은 놀라운 발전을 이루었지만, 여전히 보지 못한 도메인의 예에 적용할 때 어려움을 겪는다."
"우리는 IMO: Invariant features Masks for Out-of-Distribution text classification을 제안하여 불변 특징 학습을 통해 OOD 일반화을 달성한다."
"우리의 포괄적인 실험은 IMO가 프롬프트 기반 방법 및 대규모 언어 모델과 같은 강력한 베이스라인을 다양한 평가 지표와 설정에서 크게 능가한다는 것을 보여준다."