Core Concepts
疎な注意を使用したクロスエンコーダーは、効果的でありながらも効率的であることが示された。
Abstract
クロスエンコーダーはパッセージとドキュメントの再ランキングに有効。
窓付き自己注意を適用することで、クロスエンコーダーをより効率的にする前の研究があった。
窓サイズや異なる注意パターンの潜在能力と限界を調査し、トークン間の相互作用を削減しつつ再ランキングの効果を保つ方法を分析。
実験結果では、4つのトークンから成る窓でも以前のクロスエンコーダーよりもメモリ要件が22%/59%削減され、推論時間が1%/43%高速化された。
独自のCUDAカーネルによるウィンドウ付き自己注意は他の実装よりも優れた性能を発揮。
ウィンドウサイズ4では、他のウィンドウサイズや完全な自己注意と同等に効果的であることが示された。
1. 導入
本稿では、疎な注意がクロスエンコーダーに及ぼす影響に焦点を当てている。
2. 関連研究
PLMをランキングに使用する戦略は、問い合わせと文書(またはパッセージ)の符号化を分離することで実現される。
バイエンコーダーモデルは、文書符号化がインデックス化されているため効率的だが、交差エンコーダーよりも効果が低い。
3. 詳細解析
クロスエンコーダーをより効率的にする戦略として知識蒸留や疎な注意パターン適用が提案されている。
窓付き自己注意や非対称アテンションパターンはトークントークント間相互作用削減に有益。
4. 実験結果
ウィンドウサイズ4でも以前のモデルよりもメモリ要件削減・推論時間高速化が可能。
5. 効率性評価
独自カーネルおよび非対称アテンショニング機能によってモデル全体の性能向上が確認された。
Stats
ウィンドウサイズ4では以前のモデルよりもメモリ要件削減・推論時間高速化