UltraEvalは、大規模言語モデルの能力を迅速かつ効率的に評価するための軽量で使いやすいフレームワークを提供する。
FreeEvalは、大規模言語モデルの評価手法を統一的に実装し、評価の信頼性と効率性を高めるモジュール型フレームワークである。
大規模言語モデルは事実と整合しない出力を生成する傾向があり、これらの「幻覚」を定量的に評価し比較するためのプロジェクトを紹介する。
S3EVALは、複雑な合成SQLタスクを使って大規模言語モデルの能力を包括的に評価する。合成的で、スケーラブルで、体系的な特徴を持ち、実世界のタスクとの強い相関を示す。
本研究は、GPT-3.5-Turbo、GPT-4、PaLM2、Gemini-Pro、Mistral、Llama2、Gemmaなどの最新の大規模言語モデルの非英語言語における性能を、83言語にわたる22のデータセットを用いて包括的に評価する。また、マルチモーダルデータセットを用いてLLaVA、GPT-4-Vision、Gemini-Pro-Visionの性能も比較する。実験の結果、GPT-4が全体的に最も優れた性能を示し、特に低資源言語でも高い精度を達成することが分かった。一方、データセットの汚染が多くのモデルで確認され、この問題への対処が重要であることが明らかになった。
大規模言語モデルの数学プロフィシエンシーを心理測定学的アプローチを用いて評価し、人間との比較を行う。
Evalverseは、分散した評価ツールを単一のユーザーフレンドリーなフレームワークに統合することで、大規模言語モデルの評価を簡素化する革新的なライブラリです。