核心概念
単一クラスのラベルのみを使用して、ビジョン-言語モデルを活用することで、正例と負例を効果的に識別できる。
要約
本研究では、単一クラスのラベルのみを使用して、ゼロショット単一クラス分類を行う手法を提案している。
提案手法は2段階のアプローチを取る:
大規模言語モデル(LLM)を使用して、視覚的に混同しやすいオブジェクトを特定する
ビジョン-言語事前学習モデル(CLIP)を使用して分類を行う
既存の大規模ビジョンデータセットを改変して、単一クラス分類のベンチマークを構築した。特に、iNaturalistデータセットを階層的にサンプリングすることで、クラス間の近接度を制御できるようにした。
提案手法は、固定閾値と適応的閾値の組み合わせを用いることで、既存手法よりも優れた性能を示した。特に、細粒度なタスクでの性能が高い。
提案手法は、単一クラスのラベルのみを使用して、効果的に正例と負例を識別できることを示した。これは、異常検知や不正検知などの分野で有用である。
統計
単一クラスのラベルのみを使用して、ゼロショット単一クラス分類を行うことができる。
大規模言語モデルを使用して、視覚的に混同しやすいクラスを特定できる。
ビジョン-言語事前学習モデルと組み合わせることで、優れた分類性能を発揮する。
階層的にサンプリングしたiNaturalistデータセットを使用することで、クラス間の近接度を制御できる。