Core Concepts
限られた数の説明付き画像と大量の説明なし画像を効果的に活用し、入力画像と生成された文章の一貫性を確保することで、より合理的なマッピング関数を学習する。
Abstract
本論文は、半教師あり画像キャプショニングの問題に取り組んでいる。従来の教師あり画像キャプショニングアプローチは、全ての画像に対応する説明文が必要であるが、現実世界のアプリケーションでは説明付き画像が限られ、説明なし画像が大量にある場合が多い。
提案手法SSIC-WGMは、入力画像と生成された文章の一貫性を確保することで、説明なし画像を効果的に活用する。具体的には以下の2つの観点から一貫性を確保する:
異モーダル一貫性: 入力画像と生成文章それぞれのシーングラフを構築し、ワッサーシュタイン距離を用いてその類似度を測定する。これにより、異なるモーダル間の意味的な一貫性を確保する。
同モーダル一貫性: データ拡張を用いて入力画像の変形バージョンを生成し、それらに対して生成された文章の一貫性を確保する。
これらの一貫性制約を導入することで、限られた説明付き画像と大量の説明なし画像を効果的に活用し、より合理的なマッピング関数を学習できる。
実験結果は、提案手法SSIC-WGMが様々な半教師あり学習シナリオにおいて、最先端の比較手法を上回る性能を示すことを確認している。
Stats
説明付き画像は全体の1%しかないが、大量の説明なし画像を活用することで、最先端の教師あり手法を大きく上回る性能を達成できる。
提案手法SSIC-WGMは、CIDEr-Dスコアで70.4から76.0へ、SPICEスコアで15.2から16.5へと大幅な改善を示す。
Quotes
"半教師あり画像キャプショニングの主要な課題は、生成された文章の品質を適切に監督することである。"
"入力画像と生成文章の一貫性を確保することで、説明なし画像を効果的に活用できる。"