본 논문에서는 분포 외 데이터 탐지 벤치마크에서 기존의 의미론적 레이블 기반 접근 방식의 문제점을 지적하고, 의미론적 및 공변량 변화 수준을 기반으로 벤치마크를 구축하여 모델의 성능을 더욱 포괄적으로 평가해야 한다고 주장합니다.
본 논문에서는 심층 신경망(DNN)의 특징 공간에서 선형적으로 분리하기 어려운 분포 내(InD) 데이터와 분포 외(OoD) 데이터를 구별하기 위해 커널 PCA(KPCA) 기반 OoD 탐지 방법을 제안합니다.
트리 기반 앙상블 학습 모델을 이용하여 학습 데이터와 다른 분포의 테스트 데이터를 효과적으로 탐지할 수 있다.
본 연구는 심층 메트릭 학습과 확산 모델을 이용한 합성 데이터 생성을 결합하여 분포 외 데이터 탐지 성능을 향상시키는 새로운 접근법을 제안한다.
신경망이 원래 학습 분포와 다른 데이터에 대해 과신뢰 오류를 보이는 문제를 해결하기 위해, 손실 함수의 기울기 정규화를 통해 국소적 정보를 학습하고 에너지 기반 클러스터링을 통해 더 정보적인 분포 외 데이터 샘플링을 수행한다.
대규모 언어 모델을 활용하여 생성한 동료 클래스 정보를 보조 모달리티로 사용하여 분포 외 데이터 탐지 성능을 향상시킬 수 있다.
다중 검정 기법을 활용하여 사전 학습된 신경망의 다양한 레이어에서 추출된 특징을 융합함으로써 분포 외 데이터 탐지 성능을 향상시킨다.
본 논문은 바이-인코더 기반 탐지기를 활용하여 자연어 처리 분야에서 분포 외 데이터를 효과적으로 탐지하는 방법을 제안한다.