本論文では、視覚トークナイザーの重要性を強調し、理想的な視覚トークナイザーが備えるべき2つの基本的な性質、同質性と適応性を提案している。
まず、論文では、自然言語処理におけるトークナイザーの役割と重要性を説明し、それを踏まえて視覚トークナイザーにも同様の性質が必要であると述べている。具体的には、自然言語では単語や部分語がトークンの基本要素であるのに対し、画像では固定サイズの矩形パッチがトークンの基本要素となっているが、これでは意味的に独立した領域を表現できないという問題がある。
そこで本論文では、意味的に独立した領域(Semantically Independent Region: SIR)を定義し、理想的な視覚トークナイザーは(1)SIRをトークンの基本要素とする同質性と、(2)任意の数のトークンを生成できる適応性を備えるべきだと提案している。
次に、トークンと物体の関係を厳密に定義し、その混同行列を分析することで、同質的なトークンを構築するための2つの一般的なルーティング(分割・統合、統合・分割)を見出している。
最後に、分割・統合ルーティングに基づいて設計したHOOKという同質的な視覚トークナイザーを紹介している。HOOKは物体知覚モジュールと物体ベクトル化モジュールから構成され、実験の結果、HOOKは同質性と適応性を満たし、既存手法と比べて高精度かつ高効率であることが示された。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor