核心概念
表徵工程可以有效提升大型語言模型的對齊程度,使其行為更符合預期,但同時也會損害模型的幫助性,降低其在問答和程式碼生成等任務上的表現。
摘要
基於表徵工程的語言模型中,對齊與幫助性之間的權衡:理論與實證分析
Wolf, Y., Wies, N., Shteyman, D., Rothberg, B., Levine, Y., & Shashua, A. (2024). Tradeoffs Between Alignment and Helpfulness in Language Models with Representation Engineering. arXiv preprint arXiv:2401.16332v4.
本研究旨在探討利用表徵工程技術對齊大型語言模型 (LLM) 所帶來的影響,特別關注於對齊程度提升與模型幫助性下降之間的權衡關係。