Core Concepts
다양한 과제에 대한 선호도를 통합적으로 고려하여 선호도와 정렬된 궤적을 생성하는 조건부 확산 모델을 제안한다.
Abstract
이 논문은 다중 과제 환경에서 선호도 정렬을 위한 조건부 확산 모델을 제안한다. 기존 방법들은 사전 정의된 보상 함수에 의존하거나 선호도 학습과 정책 학습을 분리하는 한계가 있었다. 이에 저자들은 다중 과제 선호도를 통합적으로 고려하는 선호도 표현을 학습하고, 이를 활용하여 선호도와 정렬된 궤적을 생성하는 조건부 확산 모델을 제안한다.
구체적으로 다음과 같은 내용을 다룬다:
다중 과제 선호도 정의 및 선호도 표현 학습: 동일 과제 내 보상 관련 선호도와 과제 간 선호도를 모두 고려하는 다중 과제 선호도를 정의하고, 이를 반영하는 표현을 학습한다.
선호도 표현 정렬 학습: 삼중 손실과 KL 발산 손실을 통해 선호도 표현을 선호도와 정렬되도록 학습한다.
선호도 표현 기반 조건부 확산 모델: 학습된 선호도 표현을 활용하여 조건부 확산 모델을 학습하고, 상호 정보량 정규화를 통해 생성 궤적과 선호도 표현의 정렬을 강화한다.
실험 결과, 제안 방법은 다중 과제 및 단일 과제 환경에서 우수한 성능을 보이며, 선호도와 정렬된 궤적을 생성할 수 있음을 확인했다.
Stats
과제 간 선호도 차이가 크다는 것은 과제별 보상 함수가 상이함을 의미한다.
선호도 표현 학습 시 삼중 손실과 KL 발산 손실을 통해 선호도와 정렬되도록 한다.
조건부 확산 모델 학습 시 상호 정보량 정규화를 통해 생성 궤적과 선호도 표현의 정렬을 강화한다.
Quotes
"Sequential decision-making is desired to align with human intents and exhibit versatility across various tasks."
"Preferences offer more versatile supervision across multi-tasks than scalar rewards."
"To establish aligned and versatile conditional generation, our proposition involves adopting multi-task preferences and constructing a unified preference representation for both single- and multi-task scenarios."