מושגי ליבה
大規模言語モデル(LLMs)の信頼性を確保するために、整合性、安全性、公平性、悪用への抵抗力、説明可能性と推論、社会的規範への適合、および堅牢さなど7つの主要カテゴリーが重要である。
תקציר
この論文は、大規模言語モデル(LLMs)の信頼性に焦点を当てており、整合性、安全性、公平性、悪用への抵抗力など7つの主要カテゴリーに分類される29個のサブカテゴリーを包括的に調査しています。各セクションでは重要なハイライトや洞察が提供されています。また、測定結果からも示されるように、より整合したモデルは全体的な信頼性が向上する傾向がありますが、整合度の効果は考慮される異なる信頼性カテゴリーによって異なります。
סטטיסטיקה
OpenAIはGPT-4をリリースする前に6か月間かけて反復的に整列させました。
測定結果は一般的に、より整列したモデルが全体的な信頼性面で優れたパフォーマンスを発揮する傾向があることを示しています。
テキスト内で提供された知識と照らし合わせてChatGPTが正しい回答を提供しない例も見られました。