本論文は、大規模言語モデル(LLM)のアンサンブルに関する新しい手法を提案している。LLMは多様なデータセット、アーキテクチャ、トレーニング手法を通して開発されており、それぞれ異なる長所と短所を持っている。そのため、これらのLLMをアンサンブルすることで相補的な潜在力を引き出し、個々の強みを活かすことが非常に有益である。
従来のアンサンブル手法は、完全に生成された出力の選択や融合に焦点を当てていた。しかし、これらの手法は出力の質に制限されており、既存の出力を超えるような新しい出力を生成することができない。
本論文では、生成プロセスの各ステップでのファイングレインドなアンサンブルを可能にする新しい手法「EVA」を提案する。EVAは、LLM間の語彙の違いを解消することで、各生成ステップでの詳細なアンサンブルを実現する。具体的には以下の2つのステップから成る:
語彙の対応付け: 異なるLLMの語彙の間にある重複トークンを利用して、それらの語彙を共通の空間にマッピングする。これにより、LLM間の出力分布を統一的な空間に射影できるようになる。
LLMのアンサンブル: 各生成ステップで、マッピングされた出力分布を統合し、信頼できないトークンを除外することで、最終的な出力を生成する。
実験結果は、EVAが個別のLLMや従来のアンサンブル手法よりも優れた性能を示すことを明らかにしている。さらに、分析により、EVAが異なるLLMの知識を効果的に活用し、一貫した改善をもたらすことが確認された。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor