Core Concepts
提案されたTI-UCBアルゴリズムは、増加して収束する報酬傾向に対応し、効果的なモデル選択を実現します。
Abstract
この論文では、大規模言語モデル(LLMs)のオンラインモデル選択問題に焦点を当てています。Web会話やニュース推薦などのアプリケーションで使用されるLLMsの採用が増加している中、最適なモデルを選択する必要性が高まっています。従来の選択方法では、候補モデル全てを評価してから1つを選択することが一般的でしたが、訓練や微調整のコストが上昇している今日では非現実的です。提案されたTI-UCBアルゴリズムは、報酬の増加傾向を予測し、収束ポイントを捉えることで効果的なバランスを取ります。さらに、変化検出メカニズムも導入されており、理論的にも実証的にもその有効性が示されています。
1. 導入
大規模事前学習モデル(LLMs)への注目が高まっている。
オンラインモデル選択問題は重要性が増している。
提案されたTI-UCBアルゴリズムは報酬傾向を予測しバランスを取る。
2. 開発
報酬関数の生成:合計8つの分類モデルから成るIMDBバンジット環境。
ファインチューニングコスト導入:APIベースLLMへのファインチューニングコスト追加。
3. 結果
合成環境でTI-UCBは他手法よりも低い累積後悔値を示す。
分類性能波動下でもTI-UCBは有効。
Stats
Web会話やニュース推薦などのアプリケーションで使用される大規模言語モデル(LLMs)への注目が高まっている。