Conceptos Básicos
Increasing the number of LLM calls may not always improve performance due to query difficulty diversity.
Resumen
最近の言語タスクにおける多くの最先端の結果は、複数の大規模言語モデル(LLM)を使用して行われています。しかし、LLMコールの数が複合システムのパフォーマンスにどのように影響するかについてはほとんど理解されていません。本研究では、1層の投票推論システムのスケーリング則を研究しました。実験結果から、LLMコール数が増えるとパフォーマンスが初めは向上しますが後で低下することが明らかになりました。
Estadísticas
Figure 1: How the number of calls to GPT-3.5 affects its performance on the MMLU college mathematics dataset [HBB+20] when aggregating results via majority vote.
Figure 2: Performance breakdown on easy and hard items. As the number of LLM calls increases, the one-layer Voting Inference System performs increasingly better on easy items but increasingly worse on the hard items. The math dataset consists of 58% hard questions.