核心概念
VLMを使用してSGGの表現を向上させ、印象的なパフォーマンス向上を実現するために、新しいLM推定法と確信度重視のアンサンブル戦略が効果的であることを示す。
統計
未知トリプレットが訓練中に見られない場合もあります。
バックグラウンドクラス予測が困難です。
引用
"While ensembling, we observe that some samples are better represented by the zero-shot VLM, while others align better with the SGG-trained model."
"Our method effectively addresses the words biases, enhances SGG’s representation, and achieve markable performance enhancements."