最近の2段階ソリューションに対処するために、提案されたワンステージ弱教師付きグラウンデッドキャプショナーは、トップダウン画像レベルでのキャプショニングとグラウンディングを行います。この方法は、関係セマンティクスを導入し、正確なキャプション生成とグラウンディングパフォーマンスを向上させます。実験結果では、Flick30k EntitiesおよびMSCOCOの難しいデータセットで最先端のグラウンディングパフォーマンスを達成しています。提案された手法は、既存の2段階パイプラインよりも優れた結果を示しています。
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Chen Cai,Suc... : arxiv.org 03-05-2024
https://arxiv.org/pdf/2306.07490.pdfDaha Derin Sorular