本研究では、大規模言語モデルの安全性を評価するための14の新しいデータセットを紹介した。これらのデータセットは、事実性、有害性、バイアス、幻覚傾向といった4つの主要な問題に焦点を当てている。
事実性に関しては、Llama2が最も良い成績を収めた。有害性に関しては、Llama2が最も良い性能を示したが、マルチターンの会話では性能が大幅に低下した。一方、Mistralはマルチターンの会話でも安全性を維持していた。
幻覚傾向に関しては、Mistralが最も良い結果を示した。バイアスに関しては、すべてのモデルが低い成績だった。
ドメイン特化のファイナンスデータセットでは、Mistralが最も良い一貫性を示したが、全体的な成績は低かった。
今後の課題として、データセットの拡充、長文や多ターンの会話への対応、安全性向上のためのファインチューニングの検討などが挙げられる。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by David Nadeau... kl. arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09785.pdfDybere Forespørgsler