本論文は、確率的な画像-テキスト表現(PCME++)を提案する。PCME++は、閉形式の確率的距離(CSD)を導入し、大量の偽陰性(FN)に対処するための2つの最適化手法(擬似ポジティブ(PP)とミックスサンプルデータ拡張(MSDA))を提案する。
実験結果では、PCME++がMS-COCO Captionとその拡張ベンチマークであるCxCとECCV Captionで、最先端のITMモデルを上回ることを示している。特に、バックボーンサイズが大きくなるほど、PCME++の優位性が顕著になる。また、PCME++は雑音のある対応関係にも強いことが示されている。さらに、PCME++のテキストの不確実性を利用したゼロショット分類のためのプロンプトフィルタリングの初期結果も示されている。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania