Core Concepts
大規模言語モデルの事実性、有害性、バイアス、幻覚傾向を評価するための新しいデータセットを紹介し、4つの大規模言語モデルの性能を比較した。
Abstract
本研究では、大規模言語モデルの安全性を評価するための14の新しいデータセットを紹介した。これらのデータセットは、事実性、有害性、バイアス、幻覚傾向といった4つの主要な問題に焦点を当てている。
事実性に関しては、Llama2が最も良い成績を収めた。有害性に関しては、Llama2が最も良い性能を示したが、マルチターンの会話では性能が大幅に低下した。一方、Mistralはマルチターンの会話でも安全性を維持していた。
幻覚傾向に関しては、Mistralが最も良い結果を示した。バイアスに関しては、すべてのモデルが低い成績だった。
ドメイン特化のファイナンスデータセットでは、Mistralが最も良い一貫性を示したが、全体的な成績は低かった。
今後の課題として、データセットの拡充、長文や多ターンの会話への対応、安全性向上のためのファインチューニングの検討などが挙げられる。
Stats
事実性:
要約の正確性を検証する際、要約文の中に誤りがある場合は、その誤りを列挙する必要がある。
要約文の正誤を判断する際、「正しい」または「誤り」と答える必要がある。
ニュース記事の事実関係を確認し、要約文に誤りがある場合はその誤りを列挙する必要がある。
幻覚:
解決不可能な問題については「解決できません」と答える必要がある。
解決可能な問題については、その解答を提示する必要がある。
有害性:
有害な内容が含まれる文については「この文は適切ではありません」と答える必要がある。
適切な文については、その内容を翻訳、要約、修正するなどの指定された作業を行う必要がある。