LLM(Large Language Models)のパフォーマンスを評価し、計算論議タスクでの能力を明らかにする。
ブロックチェーン技術を活用して、自動評価と人間のフィードバックを組み合わせた評判システムを設計・開発し、大規模言語モデルの信頼性と有用性を効果的かつ透明性高く評価する。
ベンチマークの基準分布の仮定が大規模言語モデルの評価に与える影響を明らかにした。ベンチマーク内のプロンプトの相関関係が有意であり、プロンプトの重み付けを変更すると、モデルの順位付けが大きく変化することを示した。また、モデルの類似したパフォーマンスはプロンプトの意味的類似性だけでなく、モデルの共通の弱点にも起因することを明らかにした。
多shot in-context学習を活用することで、大規模言語モデルを評価者として使用する際の一貫性と品質を向上させることができる。また、シンボルバイアスを軽減する簡単で効果的なアプローチを提案する。