핵심 개념
提案されたLTGCフレームワークは、大規模モデルの豊富な暗黙知識を活用して長尾認識の課題に取り組むことを目的としています。
초록
提案されたLTGCフレームワークは、長尾認識の挑戦に対処するために新しい生成および微調整フレームワークです。このフレームワークは、大規模モデルから生成された多様なデータを尾部カテゴリに適応させることを目指しています。また、生成されたデータの品質を確保し、生成されたデータと元のデータの両方を効果的に使用してモデルを微調整する革新的な設計が組み込まれています。実験結果は、LTGCが一般的な長尾認識ベンチマークで既存の最先端手法を上回っていることを示しています。
통계
ImageNet-LTでは、我々の方法は他のCLIPベースのLT手法よりも優れており、全体的な精度が80.6%であり、VT-LTR [36]よりも3.4%高い。
Places-LTでは、他のCLIPバリアント手法と比較して、LTGCは全体的な精度が54.1%であり、少数ショット精度が52.1%であり、LPT [14]よりも4.0%および5.2%高い。
iNaturalist 2018では、LTGCは従来の深層学習手法よりも優れており、全体的な精度が82.5%であり、少数ショット精度が82.6%であります。
인용구
"Recently, Large Language Models (LLMs) and Large Multimodal Models (LMMs) due to their wealth of implicit knowledge, have been leveraged for a variety of downstream tasks."
"We propose a novel Long-Tail recognition framework via Generated Content, denoted as LTGC, which is illustrated in Fig."
"Our LTGC aims to leverage the capabilities of large models for generating explicitly diverse content tailored to the long-tail classes."