본 연구는 데이터 기반 블랙박스 최적화 문제를 다룬다. 이를 위해 두 가지 형태의 레이블 데이터를 고려한다:
이 문제를 조건부 샘플링 문제로 변환하여, 확산 모델의 강력한 생성 능력을 활용한다. 특히 보상 지향 확산 모델을 제안하여, 높은 보상을 가진 새로운 솔루션을 생성할 수 있다.
이론적으로, 제안한 방법은 잠재 부공간 구조를 효율적으로 학습하고, 생성된 솔루션이 이 구조를 잘 보존하는 것을 보장한다. 또한 생성된 솔루션의 평균 보상이 최적 보상에 근접하는 것을 증명한다. 이는 오프라인 밴딧 학습의 최적 보장과 유사하다.
실험 결과는 제안 방법의 이론적 결과를 뒷받침하며, 텍스트-이미지 생성 및 오프라인 강화학습 등 다양한 응용 분야에서 우수한 성능을 보인다.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Zihao Li,Hui... ที่ arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13219.pdfสอบถามเพิ่มเติม