本論文は、大規模言語モデル(LLM)の自己改善能力について調査したものである。
まず、LLMの生成能力と選別能力を公平に比較するための統一的な枠組みを提案した。この枠組みでは、LLMに自己生成した候補答案から最適なものを選ばせ、その選別性能と生成性能を比較する。
実験の結果、LLMの選別性能は生成性能と同等かそれ以下であることが分かった。つまり、LLMは自己生成した応答を適切に選別することができず、自己改善することが難しいことが示された。
この傾向は、数学問題、常識問題、真実性問題、命令理解タスクなど、様々なタスクで観察された。また、LLMの微調整や、選別フェーズの補助的な工夫を行っても、この傾向は変わらなかった。
一方、自己生成ではなく教師あり学習を主とする言語モデルでは、この傾向が見られなかった。これは、自己生成を主とする事前学習が、自己選別能力の欠如につながる可能性を示唆している。
本研究の結果は、LLMの自己改善能力に疑問を投げかけるものであり、今後の自己改善AI システムの設計に示唆を与えるものと考えられる。
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Dongwei Jian... о arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04298.pdfГлибші Запити