本研究では、対話生成における一対多の問題に取り組むため、潜在変数を用いた拡散モデルを提案している。具体的には以下の通りである:
事前学習済みの言語モデルBartとlatent-based拡散モデルを組み合わせた構造を提案した。Bartエンコーダーは、対話文脈と応答の潜在表現を学習し、拡散モデルはこの潜在表現を段階的に脱ノイズすることで、最終的な応答を生成する。
潜在変数の事前分布を固定ガウス分布ではなく、エンコーダーから学習した柔軟な分布とすることで、より細かな多様性を生成できるようにした。
低次元の潜在空間での推論を行うことで、拡散モデルの推論効率を大幅に改善した。
実験の結果、提案手法は対話応答の多様性を大幅に向上させつつ、流暢性も維持できることを示した。また、推論速度においても大幅な改善が見られた。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jianxiang Xi... alle arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.06760.pdfDomande più approfondite