深層ブースティング学習は、アンカーブランチによって得られた距離情報を活用し、ターゲットブランチの距離メトリックを最適化することで、より強力な画像-テキストマッチングモデルを実現する。
画像-テキストマッチング(ITM)タスクは、多様性と不完全なアノテーションから生じる本質的な曖昧さに悩まされている。確率的な埋め込みを探索することで、この課題に取り組むことができる。