The author proposes a training-free approach, FineR, that leverages Large Language Models (LLMs) to reason about fine-grained category names from visual descriptions, eliminating the need for expert annotations.
専門家のアノテーション不要で、大規模言語モデルを活用して細かい視覚カテゴリを理解する方法を提案。