Core Concepts
大規模言語モデルは言語間の訓練データの偏りにより、言語的差別を示す可能性がある。本研究では、安全性と品質の2つの側面から言語的差別を系統的に評価し、LDFighterという軽量な手法を提案して、この問題に取り組む。
Abstract
本研究は、大規模言語モデル(LLM)における言語的差別の問題に取り組んでいる。
まず、安全性と品質の2つの側面から、4つの代表的なLLMの言語的差別を系統的に評価した。
安全性の評価では、有害な質問に対するLLMの応答を分析し、言語間のジェイルブレイク率の差異を明らかにした。結果、英語、フランス語、ロシア語、スペイン語などの高資源言語では平均1.04%のジェイルブレイク率であるのに対し、ベンガル語、グルジア語、ネパール語、マイティリー語などの低資源言語では平均27.7%のジェイルブレイク率と大きな差があることが分かった。
品質の評価では、LLMの良性の質問に対する応答の品質を分析した。英語、デンマーク語、チェコ語、スロベニア語などの言語では平均F1スコア0.1494と高品質であるのに対し、カンナダ語、南パシュトー語、タジク語、テルグ語などの言語では平均0.0341と低品質であることが分かった。
これらの結果から、LLMにおける言語的差別は深刻な問題であることが明らかになった。
そこで本研究では、LDFighterという軽量な手法を提案した。LDFighterは、質問を複数の言語に翻訳し、それぞれの応答を英語に翻訳して類似度に基づいて最終的な応答を選択する。
LDFighterの評価実験の結果、LDFighterはLLMの安全性と品質の両方を大幅に改善することが示された。特に、上位3言語を使用した場合、4つのLLMのジェイルブレイク率がほぼ0%まで低下し、応答品質も向上した。
以上より、LDFighterは言語的差別を効果的に緩和できる有効な手法であることが示された。
Stats
英語、フランス語、ロシア語、スペイン語の有害な質問に対するジェイルブレイク率は平均1.04%
ベンガル語、グルジア語、ネパール語、マイティリー語の有害な質問に対するジェイルブレイク率は平均27.7%
英語、デンマーク語、チェコ語、スロベニア語の応答のF1スコアは平均0.1494
カンナダ語、南パシュトー語、タジク語、テルグ語の応答のF1スコアは平均0.0341
Quotes
"英語、フランス語、ロシア語、スペイン語などの高資源言語では平均1.04%のジェイルブレイク率であるのに対し、ベンガル語、グルジア語、ネパール語、マイティリー語などの低資源言語では平均27.7%のジェイルブレイク率と大きな差がある"
"英語、デンマーク語、チェコ語、スロベニア語などの言語では平均F1スコア0.1494と高品質であるのに対し、カンナダ語、南パシュトー語、タジク語、テルグ語などの言語では平均0.0341と低品質である"