本レポートは、2024年NICE画像キャプショニングチャレンジのソリューションを紹介するものです。
データ発見段階では、モデル生成キャプションデータを活用することで、手動アノテーションデータと整合性の高いテキストスタイルを維持しつつ、高品質なデータを得ることができました。
fine-tuning段階では、リトリーバル拡張戦略とキャプションレベル戦略を組み合わせることで、モデルの零ショット性能を向上させました。リトリーバル拡張戦略により、入力画像に関連する外部知識をモデルに統合し、より適切なキャプションを生成できるようになりました。キャプションレベル戦略では、キャプションの品質レベルを明示的に示すことで、モデルがより高品質で一致度の高いキャプションを生成するよう学習できるようになりました。
最終的に、CIDEr-Ensembleテクニックを用いてモデルアンサンブルを行い、リーダーボードで1位を獲得しました。
To Another Language
from source content
arxiv.org
Djupare frågor