Centrala begrepp
画像埋め込みからテキストトークンを予測する言語デコーダーを適用し、オブジェクト認識を行う方法に焦点を当てる。
Statistik
自動回帰フレームワークは、CLIP [93]など他の手法よりも優れたパフォーマンスを発揮します。
1.78Bモデルは完全なモデルと比較して効率的であり、ソースから生成まで18.1倍高速です。
Citat
"画像埋め込みからテキストトークンを予測する言語デコーダーがオブジェクトラベリングタスクにどのように役立つか"
"一度に複数のラベルのサンプリングが可能なone-shotサンプリングメソッド"