本研究では、大規模言語モデルの安全性を評価するための14の新しいデータセットを紹介した。これらのデータセットは、事実性、有害性、バイアス、幻覚傾向といった4つの主要な問題に焦点を当てている。
事実性に関しては、Llama2が最も良い成績を収めた。有害性に関しては、Llama2が最も良い性能を示したが、マルチターンの会話では性能が大幅に低下した。一方、Mistralはマルチターンの会話でも安全性を維持していた。
幻覚傾向に関しては、Mistralが最も良い結果を示した。バイアスに関しては、すべてのモデルが低い成績だった。
ドメイン特化のファイナンスデータセットでは、Mistralが最も良い一貫性を示したが、全体的な成績は低かった。
今後の課題として、データセットの拡充、長文や多ターンの会話への対応、安全性向上のためのファインチューニングの検討などが挙げられる。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문