Core Concepts
TransformerFAMは、Transformerの潜在表現に対する注意機構にフィードバックループを導入することで、Transformerに作業記憶を自然と生み出すことができる。これにより、無限長の入力シーケンスを効率的に処理できるようになる。
Abstract
本論文では、Transformerアーキテクチャの新しい手法であるTransformerFAMを提案している。TransformerFAMは、Transformerの潜在表現に対する注意機構にフィードバックループを導入することで、Transformerに作業記憶を自然と生み出すことができる。
具体的には以下のような特徴がある:
入力クエリが現在のブロック、メモリセグメント、過去のFAMに注意を向けることで、長期的な文脈情報を統合的に処理できる。
FAMクエリが現在のブロックを圧縮し、過去のFAMに基づいて更新することで、無限長の系列を効率的に処理できる。
新しい重みを追加せずに既存のTransformerモデルに統合できるため、事前学習済みモデルの再利用が可能。
実験の結果、TransformerFAMは長文コンテキストタスクにおいて大幅な性能向上を示した。特に、1B、8B、24Bの大規模Transformerモデルでも同様の効果が確認された。これは、TransformerFAMが長文コンテキストを効率的に処理できる汎用的なアーキテクチャであることを示唆している。
Stats
長文コンテキストタスクでは、TransformerFAMが既存のTransformerモデルに比べて大幅な性能向上を示した。
特に、ScrollsQasperタスクでは8Bモデルで18.5%、24Bモデルで29.4%の精度向上が確認された。
XLSumタスクでは、1Bモデルで15.9%、8Bモデルで24.7%、24Bモデルで26.4%の精度向上が得られた。
Quotes
"TransformerFAMは、Transformerの潜在表現に対する注意機構にフィードバックループを導入することで、Transformerに作業記憶を自然と生み出すことができる。"
"TransformerFAMは新しい重みを追加せずに既存のTransformerモデルに統合できるため、事前学習済みモデルの再利用が可能である。"