Core Concepts
論文では、視覚的手がかりだけでなく、テキスト情報を組み込んだ新しいアプローチTextGCDを導入しています。この方法は、従来のGCD手法よりも優れたパフォーマンスを示しました。
Abstract
現在のGCD手法は視覚的手がかりに依存しており、新しいアプローチであるTextGCDはテキスト情報を取り入れている。
TextGCDフレームワークにはRTGフェーズとCCTフェーズが含まれており、両者の相互利益を最大限に活用しています。
実験結果では、TextGCDが8つのデータセットで最先端のパフォーマンスを達成しています。
Stats
論文では、「ImageNet-1k」と「CUB」において競合他社よりも7.7%と10.8%高い精度を達成したことが述べられています。
Quotes
"Despite the remarkable advancements of deep learning in visual recognition, a notable criticism is that the models, once trained, show a significant limitation in recognizing novel classes not encountered during the supervised training phase."
"Our contributions are summarized as follows: We identify the limitations of existing GCD methods that rely on only visual cues and introduce additional textual information through a customized RTG based on large-scale VLMs."