本文介紹了兩個新的概念:對話長度(Conversational Length, CL)和對話複雜度(Conversational Complexity, CC)。CL量化了獲得特定輸出所需的對話長度,而CC則量化了用戶指令序列的算法複雜度。
作者提出使用語言模型作為參考機器來近似Kolmogorov複雜度,從而估算CC。他們將這些指標應用於Anthropic的紅隊測試數據集,進行了定量分析。
研究發現,有害對話通常需要更長的對話長度和更高的對話複雜度。這些指標可以用於識別潛在的風險點,並為改進LLM安全性提供有價值的洞見。
作者還探討了不同LLM類型(如Plain LM、RLHF、上下文蒸餾和拒絕採樣)在對話複雜度分佈方面的差異,並展示了使用這些指標進行風險預測的潛力。
總的來說,本文提出了一種新的基於對話複雜性的LLM風險評估框架,為深入理解和改善LLM安全性提供了重要的理論基礎和實踐方法。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询