大規模言語モデルは、与えられた指示に従って安全で正確なコンテンツを生成することが期待されているが、実際にはしばしば規則に従うことができない。本研究では、大規模言語モデルの規則に基づく推論を意図的に回避する方法を理論的に分析し、実践的な攻撃手法との関連性を示す。


coremsg

大規模言語モデルの規則に基づく推論の回避に関する理論的枠組み