本研究は、スケッチの抽象的な意味を捉えるための新しい2段階の階層的トレーニングアプローチを提案している。
I. 全体的なシーンスケッチ理解
II. 個別カテゴリの理解
提案手法は、ゼロショットCLIPベースラインに比べて37ポイントも高いピクセル精度を達成し、85.5%の性能を示した。また、完全教師あり手法よりも大幅に優れた性能を発揮した。さらに、人間の理解との比較分析から、今後の改善点も明らかにした。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ahmed Bourou... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2312.12463.pdfDeeper Inquiries