最近の2段階ソリューションに対処するために、提案されたワンステージ弱教師付きグラウンデッドキャプショナーは、トップダウン画像レベルでのキャプショニングとグラウンディングを行います。この方法は、関係セマンティクスを導入し、正確なキャプション生成とグラウンディングパフォーマンスを向上させます。実験結果では、Flick30k EntitiesおよびMSCOCOの難しいデータセットで最先端のグラウンディングパフォーマンスを達成しています。提案された手法は、既存の2段階パイプラインよりも優れた結果を示しています。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Chen Cai,Suc... om arxiv.org 03-05-2024
https://arxiv.org/pdf/2306.07490.pdfDiepere vragen