Core Concepts
Large language models' format-following capability is crucial and varies across domains, necessitating specialized tuning.
Abstract
この論文は、大規模言語モデル(LLMs)のフォーマットに従う能力を評価するための先駆的なベンチマークであるFOFOに焦点を当てています。既存のベンチマークがLLMsのフォーマットに従う能力を適切に評価していないことを指摘し、異なるドメイン間でのフォーマットに従う能力の変動性を強調しています。オープンソースとクローズドソースのLLMsを比較し、フォーマットに従う能力が他の能力と独立しており、特定のデータと細かい調整が必要であることを示唆しています。
Stats
Openchat V3.2-superはフォーマット精度が31.22%であり、AlpacaEvalでは約89%です。
GPT-3.5はAlpacaEvalで93.42%、FOFOで80.66%のフォーマット精度を持っています。
Mistral 7B Instruct V0.1はAlpacaEvalで92.78%、FOFOで46.91%です。
Quotes
"Format-following capacity is independent of other capabilities of LLMs reviewed by existing content-following evaluation benchmarks."
"Closed-source models significantly outperform open-source models in format adherence."
"The format-following capability of LLMs may vary widely across different domains."