インダクションヘッドの形成には、相互に作用する3つの基本的なサブ回路が関与しており、それらの形成ダイナミクスが位相変化を引き起こしている。
従来のアテンションメカニズムの計算コストを線形化し、定数コストで実現する新しい手法を提案する。
MoEモデルの計算リソースと記憶容量の削減を目的とした、2段階のスパース化と微調整手法の提案
LoRAは大規模言語モデルを効率的に適応させる優れた手法であり、本稿では、LoRAの設計思想、適用方法、実運用上の知見を提示する。
Linear Attention Sequence Parallelism (LASP)は、線形アテンションベースの言語モデルにおいて、長シーケンスを効率的に並列処理するための新しい手法である。LASPは、線形アテンションの特性を活かした効率的な通信メカニズムと、ハードウェア最適化により、既存の並列手法よりも高速で長いシーケンスを処理できる。
複数のカーネル関数(指数関数、ガウス関数、多項式関数など)を組み合わせることで、位置情報のバイアスを生成し、ポストソフトマックス注意スコアにペナルティを課すことで、長さ外挿性能を向上させる。