CAPSFUSIONは、ウェブ上の画像-テキストペアと合成キャプションの情報を統合し、高品質で拡張性の高いキャプションデータセットを生成する。これにより、大規模マルチモーダルモデルの性能、効率性、知識深度、拡張性が大幅に向上する。