本論文では、高品質で多様なマルチモーダル対話データセットを自動的に構築するパイプラインを提案している。
まず、テキストのみの対話データと画像-キャプション対のデータを収集する。次に、GPT-4を使ってイメージ共有のタイミングを特定し、CLIPを使って対話文脈に合った画像を整合的に選択する。最後に、一貫性のない画像を除外するフィルタリングを行う。
提案するパイプラインにより構築したDialogCCデータセットは、既存のデータセットと比較して、対話の質、画像の多様性、モデルの汎化性能が大幅に向上している。人間評価でも高い評価を得ており、自動生成手法の有効性が示された。
また、DialogCCを使ってモデルを訓練すると、既存のマルチモーダル対話データセットでの性能も大幅に向上することが確認された。これは、DialogCCの高品質と多様性が、モデルの一般化性能を高めていることを示唆している。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы