핵심 개념
Current LLMs struggle to effectively follow expert-written instructions for revising long-form answers in the scientific domain.
초록
「KIWI」は、科学領域における知識集約的な文章作成指示のデータセットであり、現在のLLMsは、新しい情報を統合することや正確な編集を行うことに苦労していることが明らかになっています。この研究では、234のインタラクションセッションから1,260の対話ターンを収集し、3つの最先端LLMで詳細な分析を行いました。結果として、LLMsは特定の指示に従うことにおいて信頼性が不足しており、今後の研究やモデル改善に向けた貴重なリソースであることが示唆されています。
통계
1,260個の対話ターンから234個のインタラクションセッションを収集
3つの最先端LLM(GPT-4、GPT-3.5-turbo、LLaMA-2-70b-chat)で実施された詳細な分析
最良モデル(GPT-4)は指示に成功率59%
인용구
"Through a detailed analysis of the collected responses, we find that all models struggle to incorporate new information into an existing answer."
"Our findings indicate that KIWI will be a valuable resource to measure progress and improve LLMs’ instruction-following capabilities for knowledge intensive writing tasks."
"GPT-4 cannot reliably evaluate responses for instructions in KIWI, which are often specific and precise."