이 논문은 확산 모델을 텍스트 생성에 적용할 때 발생하는 두 가지 주요 문제를 다룬다.
첫째, 임베딩 공간의 붕괴 문제이다. 이미지나 오디오와 달리 텍스트 데이터의 임베딩은 학습 과정에서 동적으로 변화하므로, 기존 확산 모델의 목적 함수로는 임베딩 공간의 붕괴를 막기 어렵다. 이를 해결하기 위해 저자들은 앵커 손실 함수를 제안한다. 이 함수는 노이즈가 큰 임베딩에 대해서도 정답 토큰을 잘 식별할 수 있도록 임베딩을 안정화시킨다.
둘째, 디노이징 모델의 퇴화 문제이다. 임베딩 공간의 고차원성으로 인해 기존 노이즈 스케줄로는 충분한 노이즈를 주입하기 어려워, 디노이징 모델이 퇴화하는 문제가 발생한다. 저자들은 노이즈 스케일링이라는 새로운 기법을 제안하여 이 문제를 해결한다. 이 기법은 퇴화 정도를 측정하는 지표를 활용해 노이즈 수준을 적절히 조절한다.
이러한 두 가지 기법을 통합한 모델인 Difformer를 제안하며, 다양한 텍스트 생성 태스크에서 기존 모델들을 뛰어넘는 성능을 보인다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문