最近の2段階ソリューションに対処するために、提案されたワンステージ弱教師付きグラウンデッドキャプショナーは、トップダウン画像レベルでのキャプショニングとグラウンディングを行います。この方法は、関係セマンティクスを導入し、正確なキャプション生成とグラウンディングパフォーマンスを向上させます。実験結果では、Flick30k EntitiesおよびMSCOCOの難しいデータセットで最先端のグラウンディングパフォーマンスを達成しています。提案された手法は、既存の2段階パイプラインよりも優れた結果を示しています。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Chen Cai,Suc... às arxiv.org 03-05-2024
https://arxiv.org/pdf/2306.07490.pdfPerguntas Mais Profundas