この記事は、参照オブジェクトの削除タスクに焦点を当てています。ComCOCOという合成データセットを構築し、新しいエンドツーエンド構造のモデルを提案しています。Hierarchical text featuresとvisual featuresを統合するSyntax-Aware Hybrid Mapping Networkが導入され、segmentation masksとinpainting mappingが生成されます。実験では、提案手法が既存手法よりも優れた性能を示すことが示されています。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Xiangtian Xu... في arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.09128.pdfاستفسارات أعمق