Alapfogalmak
専門家のアノテーション不要で、大規模言語モデルを活用して細かい視覚カテゴリを理解する方法を提案。
Statisztikák
大きなインターネットスケールコーパスでトレーニングされたLLMによって世界知識が利用されている。
Dtrainにはカテゴリごとに3つの画像が含まれている。
Idézetek
"専門家アノテーションへの依存から解放された効果的なFGVRシステムを構築する方法を示す。"
"LLMを使用してビジュアル記述からカテゴリ名を推論し、任意のエキスパートアノテーションなしで細かいクラスを分類する。"