Khái niệm cốt lõi
TextHawkは、文書指向タスクに特化した設計により、細粒度な視覚知覚と効率的な情報圧縮を実現し、一般的な多様なモダリティ大規模言語モデルの能力も保持している。
Tóm tắt
TextHawkは、文書指向タスクに特化した多様なモダリティ大規模言語モデルである。主な特徴は以下の通り:
- ReSamplingとReArrangement (ReSA)モジュールを提案し、文書テキストの冗長性を削減し、モデルの計算コストを下げる。
- Scalable Positional Embeddings (SPEs)とQuery Proposal Network (QPN)を導入し、サブ画像の表現を適切に扱い、細粒度な知覚能力を高める。
- Multi-Level Cross-Attention (MLCA)メカニズムを設計し、文書画像の階層構造と意味的関係を捉えることで、細粒度な視覚知覚能力を強化する。
- Gemini Proを用いて文書指向タスクのための指示ベースの学習データを拡充し、TextHawkの性能向上に活用する。
- 一般的なベンチマークと文書指向ベンチマークの両方で最先端の結果を達成し、TextHawkの細粒度な視覚知覚と一般的な視覚言語能力の優位性を実証する。
Thống kê
文書画像を5x4のグリッドに分割すると最大5,120個のトークンが必要になる
TextHawkは視覚トークンを16倍に圧縮できる
Trích dẫn
"TextHawkは、文書指向タスクに特化した設計により、細粒度な視覚知覚と効率的な情報圧縮を実現し、一般的な多様なモダリティ大規模言語モデルの能力も保持している。"
"TextHawkは、一般的なベンチマークと文書指向ベンチマークの両方で最先端の結果を達成し、細粒度な視覚知覚と一般的な視覚言語能力の優位性を実証する。"