大規模言語モデルを用いたペアワイズ評価は、敵対的なサンプルに対して脆弱であり、モデルの持つバイアスを増幅させる可能性がある。
大規模言語モデル (LLM) は、逐次的な指示の追従において課題を抱えており、その評価には、一貫性、位置バイアス、客観性の課題が存在する。本論文では、これらの課題に対処するために、逐次命令追従 (SIFo) ベンチマークを提案する。
大規模言語モデル(LLM)の評価は、その信頼性の高いパフォーマンスを保証するために重要ですが、評価プロセスにおける複雑さやばらつきにより、再現性、信頼性、堅牢性に課題が生じています。
大規模言語モデル(LLM)の評価における再現性を高めるには、ベンチマークスコアの不確実性を定量化する必要がある。
本論文では、大規模言語モデル(LLM)が生成したチェックリストを用いることで、LLMの評価の信頼性と解釈可能性を向上させ、さらに自己改善を通じて生成能力を高めることができることを示している。
大規模言語モデル (LLM) は従来のベンチマークテストでは高い性能を示すが、真の理解と推論能力においては限界がある。
LongGenBenchは、従来の検索ベースのベンチマークとは異なり、長文生成能力、特に論理フローの整合性に焦点を当て、大規模言語モデル(LLM)の性能を評価するための新しいベンチマークである。
本稿では、ロボットで実行可能な科学プロトコルの自動生成は、科学研究プロセスを大幅に加速させる可能性があると主張し、大規模言語モデル(LLM)の科学プロトコル作成タスク(SPFT)における能力を評価するための、柔軟性と自動化を特徴とする新しいフレームワーク「ProtocoLLM」を提案しています。
大規模言語モデル(LLM)の出力評価において、LLM自身を擁護者、裁判官、陪審員として用いる、法廷風のマルチエージェントシステムが提案されている。
本稿では、大規模言語モデル(LLM)の長文における数学的推論能力を評価するための自動ベンチマークであるMATHHAYを紹介しています。