本研究は、大規模言語モデル(LLM)の探索能力を調査しています。具体的には、LLMをシンプルな多腕バンディット環境のエージェントとして配置し、環境の説明と相互作用履歴をすべて文脈内で指定しています。
実験の結果、以下のことが明らかになりました:
Gpt-3.5、Gpt-4、Llama2のほとんどの設定では、十分な探索行動が見られませんでした。これは、「接尾辞失敗」(最適腕を選択しなくなる)や「一様的失敗」(全腕をほぼ均等に選択する)といった失敗モードが観察されたためです。
唯一の例外は、Gpt-4のBSSe
C0設定(ボタンシナリオ、示唆的フレーミング、要約された履歴、強化CoT、温度0)でした。この設定では、ベースラインアルゴリズムと同等の探索行動が観察されました。
要約された履歴の提示が重要であることが示唆されました。要約なしでは、LLMは探索に失敗する可能性があります。これは、より複雑な設定では外部の要約が困難になる可能性を示唆しています。
結論として、現在の大規模言語モデルは、適切なプロンプト設計と要約された履歴の提示により、単純な強化学習環境では探索を行えますが、より複雑な設定では、fine-tuningやデータセットの改善などの非自明なアルゴリズム的介入が必要になる可能性があります。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询