長文コンテキストを扱う大規模言語モデル(LLM)は、安全性に関する課題を抱えており、包括的な安全性評価ベンチマークと効果的な改善策が必要とされている。
本稿では、大規模言語モデル (LLM) の安全性評価、特に有害な入力に対する堅牢性を、新たに提案するデータセットと複数の攻撃手法を用いて評価する。
FRACTURED-SORRY-Benchは、悪意のあるクエリを一見無害な複数のサブクエリに分解することで、複数回の対話を通じて大規模言語モデル (LLM) の安全対策を回避できることを示しており、より堅牢な防御策の必要性を強調している。
コードスイッチングを用いたレッドチーミングは、大規模言語モデル(LLM)の安全性と多言語理解能力を同時に評価するための効果的な手法である。
STARは、大規模言語モデル(LLM)のレッドチーミングにおいて、従来の手法よりも包括的なリスクサーフェスの探索と、より質の高い評価信号の提供を実現する、新しい社会技術的フレームワークである。
アラビア語圏におけるLLMの安全性評価のための新たなデータセットと、政府と反体制派の両方の視点からバイアスを評価するデュアルパースペクティブフレームワークが提案され、アラビア語圏特有の文化的、政治的文脈におけるLLMの安全性とバイアスに関する重要な洞察を提供している。
大規模言語モデル (LLM) は科学実験室の安全性に関する意思決定において信頼できるのかという問題に取り組むため、本研究では、LLM の信頼性を評価するための新しいベンチマークである LabSafety Bench を提案する。
大規模言語モデル(LLM)に対するジェイルブレイク攻撃の防御能力を評価するための包括的なベンチマーク「JAILJUDGE」とその評価フレームワークを提案する。
本稿では、科学分野における大規模言語モデル(LLM)の安全性評価のための包括的なベンチマークであるSciSafeEvalを提案する。
大規模言語モデルの事実性、有害性、バイアス、幻覚傾向を評価するための新しいデータセットを紹介し、4つの大規模言語モデルの性能を比較した。