本研究では、データ不足の状況下でも効果的なデータ拡張を実現するDALDAを提案している。
まず、大規模言語モデル(GPT-4)を活用して、クラス固有の詳細な説明を含むテキストプロンプトを生成する。これにより、限られた実画像からでも、多様な意味情報を持つ合成画像を生成できる。
次に、生成した合成画像とクラス名の整合性を示すCLIPScoreを計算し、その値に応じて、Diffusion Modelにおけるテキストプロンプトとイメージプロンプトの重み(ガイダンス重み)を動的に調整する。これにより、目的分布から逸脱しない範囲で合成画像の多様性を高めることができる。
実験の結果、提案手法は既存手法と比べて、合成画像の多様性を維持しつつ、少数shot学習タスクでの分類精度を向上させることができることが示された。特に、高CLIPScoreデータセットでは大幅な性能向上が確認された。一方、低CLIPScoreデータセットでは、分類精度の向上は限定的だが、提案手法は既存手法と同等の性能を示した。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Kyuheon Jung... alle arxiv.org 09-26-2024
https://arxiv.org/pdf/2409.16949.pdfDomande più approfondite