本研究では、大規模マルチモーダルモデル(LMM)の訓練に使用される画像-テキストデータの課題を明らかにし、CAPSFUSIONと呼ばれる高度なフレームワークを提案している。
まず、ウェブから収集した生のキャプションデータは知識が豊富だが構造が粗雑であり、一方で合成キャプションデータは文法が整っているものの知識が乏しいことを示した。これらの課題は、LMMの拡張性の欠如と知識の欠落につながっている。
そこでCAPSFUSIONは、大規模言語モデルを活用して生のキャプションと合成キャプションの情報を統合・精製し、高品質なキャプションデータを生成する。具体的には、ChatGPTを使ってキャプションの融合を行い、その出力をもとにLLaMaモデルをファインチューニングすることで、スケーラブルな高品質キャプションデータを作成している。
実験の結果、CAPSFUSIONキャプションは既存のキャプションデータと比べて、モデルの性能(COCO CIDErスコアで18.8点、NoCaps CIDErスコアで18.3点の向上)、サンプル効率(11-16倍の高速化)、知識深度、拡張性において卓越していることが示された。これにより、CAPSFUSIONは大規模LMMの訓練に有望な候補となることが明らかになった。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Qiying Yu,Qu... at arxiv.org 04-08-2024
https://arxiv.org/pdf/2310.20550.pdfDeeper Inquiries