本研究では、検索補助型言語モデルの推論速度と格納容量の課題に取り組む。具体的には以下の手法を提案する:
2値トークン表現(BTR): 検索結果のパッセージをトークンごとに1ビットのバイナリ表現に変換することで、推論時の計算量を大幅に削減する。ただし、バイナリ化によるパフォーマンス低下を防ぐため、校正手法と新たな訓練目的関数を導入する。
オフラインでのトークン圧縮: 同一トークンの表現を統合することで、格納容量をさらに削減する。
実行時の圧縮: クエリとパッセージの表現の類似性を利用して、推論時の計算量を削減する。
提案手法BTRを5つの知識集約型NLPタスクに適用した結果、ベースラインと比較して推論速度を2-4倍、格納容量を100倍以上削減しつつ、95%以上の精度を維持できることを示した。さらに、各手法の効果を分析し、BTRの効率性と精度のトレードオフを明らかにした。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問