CAPSFUSIONは、ウェブ上の画像-テキストペアと合成キャプションの情報を統合し、高品質で拡張性の高いキャプションデータセットを生成する。これにより、大規模マルチモーダルモデルの性能、効率性、知識深度、拡張性が大幅に向上する。
大規模マルチモーダルモデルは、視覚情報と整合しない不適切な応答を生み出す多モーダル幻覚に悩まされている。本研究では、自己フィードバックを活用することで、この問題を効果的に軽減する新しいアプローチを提案する。
大規模マルチモーダルモデルは物体の存在に関する幻覚を引き起こすことがあり、これを制御する手法を提案する。