HGRN2は、線形注意メカニズムに着想を得た状態拡張手法を導入することで、HGRN1よりも高い表現力を実現し、言語モデリングや画像分類などの課題で優れた性能を示す。
RWKV-5 (Eagle) と RWKV-6 (Finch)は、RWKV-4の設計を改善し、表現力を高めながらRNNの効率的な推論特性を維持する新しいアーキテクチャを提案する。
MambaByte は、バイト列を直接モデル化する新しいトークンフリーの言語モデルであり、Transformerに比べて効率的で、長文生成においても優れた性能を示す。
参照解決は重要な問題であり、様々な種類のコンテキストを理解し、うまく扱うことが不可欠である。このコンテキストには、前のターンだけでなく、ユーザーの画面上のエンティティや背景で実行中のエンティティなども含まれる。大規模言語モデルは様々なタスクで非常に強力であることが示されているが、特に非会話エンティティに対する参照解決での活用は十分ではない。本論文では、大規模言語モデルを使って、様々なタイプの参照を解決する極めて効果的なシステムを構築する方法を示す。これは、テキストのみのモダリティに還元することが一般的ではない画面上のエンティティの参照解決も含む。既存のシステムと比較して、様々な種類の参照で大幅な改善を示す。最小モデルでも、画面上の参照に対して5%以上の絶対的な改善を達成している。また、GPT-3.5およびGPT-4と比較しても、最小モデルがGPT-4と同等の性能を達成し、より大きなモデルがそれを大幅に上回ることを示す。
n-gram言語モデルの平滑化手法は、ニューラル言語モデルの正則化手法としても有効であり、従来の平滑化手法を活用することで、ニューラル言語モデルの性能を向上させることができる。