核心概念
画像-テキストマッチング(ITM)タスクは、多様性と不完全なアノテーションから生じる本質的な曖昧さに悩まされている。確率的な埋め込みを探索することで、この課題に取り組むことができる。
要約
本論文は、確率的な画像-テキスト表現(PCME++)を提案する。PCME++は、閉形式の確率的距離(CSD)を導入し、大量の偽陰性(FN)に対処するための2つの最適化手法(擬似ポジティブ(PP)とミックスサンプルデータ拡張(MSDA))を提案する。
実験結果では、PCME++がMS-COCO Captionとその拡張ベンチマークであるCxCとECCV Captionで、最先端のITMモデルを上回ることを示している。特に、バックボーンサイズが大きくなるほど、PCME++の優位性が顕著になる。また、PCME++は雑音のある対応関係にも強いことが示されている。さらに、PCME++のテキストの不確実性を利用したゼロショット分類のためのプロンプトフィルタリングの初期結果も示されている。
統計
画像-テキストの正例の88.2%と72.1%が偽陰性(FN)とラベル付けされている
PCME++は、従来手法と比べて33%高速である
引用
"画像-テキストマッチング(ITM)タスクは、多様性と不完全なアノテーションから生じる本質的な曖昧さに悩まされている。"
"確率的な埋め込みを探索することで、この課題に取り組むことができる。"