본 연구 논문에서는 텍스트-이미지 생성을 위한 확산 모델의 안정적인 학습과 이미지 품질 향상을 위해 자기 엔트로피 강화 직접 선호도 최적화(SEE-DPO)라는 새로운 방법론을 제안합니다.
기존의 직접 선호도 최적화(DPO) 기반 방법론(SPO, Diffusion-DPO, D3PO)은 특히 생성 모델이 장기간 학습 과정에서 분포 외 데이터에 맞춰 최적화될 때 과적합 및 보상 해킹에 취약하다는 문제점이 있었습니다.
이러한 문제를 해결하기 위해 본 논문에서는 인간 피드백으로부터의 강화 학습에 자기 엔트로피 정규화 메커니즘을 도입했습니다. 이러한 개선 사항은 더 폭넓은 탐색과 향상된 안정성을 장려하여 DPO 학습을 향상시킵니다.
광범위한 실험을 통해 SEE-DPO가 기존 방법보다 다양한 이미지 품질 지표에서 우수한 성능을 보인다는 것을 입증했습니다. 특히, SEE-SPO는 SPO에 비해 HPS 점수, ImageReward 및 PickScore가 각각 6.4%, 166.5%, 1.62% 향상되었습니다.
본 논문에서 제안된 SEE-DPO는 확산 모델의 안정적인 학습과 이미지 품질 향상에 크게 기여할 수 있으며, 이는 텍스트-이미지 생성 분야의 발전에 중요한 역할을 할 것으로 기대됩니다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor