本研究では、データ効率の高い汎用的な密な視覚予測モデル「Chameleon」を提案している。Chameleonは、Visual Token Matching (VTM)フレームワークに基づいており、入力の多様性を扱うための柔軟なエンコーディング機構と、タスク固有の適応メカニズムを導入している。また、大規模かつ多様なメタトレーニングデータセットを構築し、モデルの能力を向上させている。
Chameleonは、動物キーポイント検出、6Dポーズ推定、医療セマンティックセグメンテーション、動画オブジェクトセグメンテーション、例示ガイド付きオブジェクトカウンティング、細胞インスタンスセグメンテーションなど、さまざまな密な視覚予測タスクに適応することができる。これらのタスクは、教師データが少ない中で、出力の構造やセマンティクスが大きく異なるため、一般化が難しい。しかし、Chameleonは最大50枚の教師データを使って、これらのタスクに柔軟に適応することができ、既存の汎用モデルを大きく上回る性能を示している。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Donggyun Kim... alle arxiv.org 04-30-2024
https://arxiv.org/pdf/2404.18459.pdfDomande più approfondite