核心概念
본 연구는 데이터 기반 블랙박스 최적화 문제를 조건부 샘플링 문제로 변환하여, 확산 모델의 강력한 생성 능력을 활용하는 방법을 제안한다. 특히 보상 지향 확산 모델을 통해 높은 보상을 가진 새로운 솔루션을 생성할 수 있다.
摘要
본 연구는 데이터 기반 블랙박스 최적화 문제를 다룬다. 이를 위해 두 가지 형태의 레이블 데이터를 고려한다:
- 실수 보상: 데이터 포인트와 노이즈가 포함된 실수 보상 쌍으로 구성된 데이터셋
- 인간 선호도: 두 데이터 포인트와 선호 레이블로 구성된 데이터셋
이 문제를 조건부 샘플링 문제로 변환하여, 확산 모델의 강력한 생성 능력을 활용한다. 특히 보상 지향 확산 모델을 제안하여, 높은 보상을 가진 새로운 솔루션을 생성할 수 있다.
이론적으로, 제안한 방법은 잠재 부공간 구조를 효율적으로 학습하고, 생성된 솔루션이 이 구조를 잘 보존하는 것을 보장한다. 또한 생성된 솔루션의 평균 보상이 최적 보상에 근접하는 것을 증명한다. 이는 오프라인 밴딧 학습의 최적 보장과 유사하다.
실험 결과는 제안 방법의 이론적 결과를 뒷받침하며, 텍스트-이미지 생성 및 오프라인 강화학습 등 다양한 응용 분야에서 우수한 성능을 보인다.
統計資料
실수 보상 데이터셋에서 관측된 보상 yi는 실제 보상 f*(xi)에 노이즈 ξi가 더해진 형태이다: yi = f*(xi) + ξi, ξi ~ N(0, σ2)
인간 선호도 데이터셋에서 선호 레이블 ui는 Bradley-Terry 모델에 따라 결정된다: P(u|x^(1), x^(2)) = exp(f*(u)) / (exp(f*(x^(1))) + exp(f*(x^(2))))
引述
"본 연구는 데이터 기반 블랙박스 최적화 문제를 조건부 샘플링 문제로 변환하여, 확산 모델의 강력한 생성 능력을 활용하는 방법을 제안한다."
"제안한 방법은 잠재 부공간 구조를 효율적으로 학습하고, 생성된 솔루션이 이 구조를 잘 보존하는 것을 보장한다."
"생성된 솔루션의 평균 보상이 최적 보상에 근접하는 것을 증명한다. 이는 오프라인 밴딧 학습의 최적 보장과 유사하다."