核心概念
CAPSFUSIONは、ウェブ上の画像-テキストペアと合成キャプションの情報を統合し、高品質で拡張性の高いキャプションデータセットを生成する。これにより、大規模マルチモーダルモデルの性能、効率性、知識深度、拡張性が大幅に向上する。
要約
本研究では、大規模マルチモーダルモデル(LMM)の訓練に使用される画像-テキストデータの課題を明らかにし、CAPSFUSIONと呼ばれる高度なフレームワークを提案している。
まず、ウェブから収集した生のキャプションデータは知識が豊富だが構造が粗雑であり、一方で合成キャプションデータは文法が整っているものの知識が乏しいことを示した。これらの課題は、LMMの拡張性の欠如と知識の欠落につながっている。
そこでCAPSFUSIONは、大規模言語モデルを活用して生のキャプションと合成キャプションの情報を統合・精製し、高品質なキャプションデータを生成する。具体的には、ChatGPTを使ってキャプションの融合を行い、その出力をもとにLLaMaモデルをファインチューニングすることで、スケーラブルな高品質キャプションデータを作成している。
実験の結果、CAPSFUSIONキャプションは既存のキャプションデータと比べて、モデルの性能(COCO CIDErスコアで18.8点、NoCaps CIDErスコアで18.3点の向上)、サンプル効率(11-16倍の高速化)、知識深度、拡張性において卓越していることが示された。これにより、CAPSFUSIONは大規模LMMの訓練に有望な候補となることが明らかになった。
統計
生のキャプションデータは知識が豊富だが構造が粗雑である
合成キャプションデータは文法が整っているものの知識が乏しい
CAPSFUSIONキャプションは生のキャプションと合成キャプションの長所を融合し、高品質で拡張性の高いデータを生成できる
引用
"LMMs trained on synthetic captions rapidly reaches a saturation point, beyond which the model performance may even degrade."
"Currently used captioning models (e.g. BLIP [34] used in LAION-COCO [1]) heavily rely on academic datasets such as COCO and Conceptual Captions [47] for training, which replace specific details with more generic conceptual placeholders."
"CAPSFUSION captions clearly outperform synthetic captions by substantial margins, with an improvement of 18.8, 18.3, 19.7, and 15.6 in CIDEr score on COCO, NoCaps, TextCaps, and Flickr30K datasets, respectively."