Combining Vision-Language Models with graph representations, HGCLIP enhances hierarchical image classification by integrating hierarchical relationships and multi-modal prompts.
組織されたカテゴリを多階層の分類階層に探索する新しい方法を提案します。