핵심 개념
Activation steering can effectively reduce specific skills and behaviors in language models without significant negative impacts on overall performance.
통계
현재 대형 언어 모델은 위험한 능력을 가지고 있으며, 활성화 스티어링 기술은 이러한 능력에서 발생하는 위험을 줄일 수 있다.
활성화 스티어링은 모델의 출력을 조정하기 위해 활성화를 변경하는 기술이다.
활성화 스티어링은 넓은 기술에 대해 좁은 기술에 대한 스티어링과 경쟁력이 있다.
다양한 행동에 대한 스티어링 벡터를 결합하는 것은 대부분 실패했다.
개별 스티어링 벡터를 동시에 모델의 다른 위치에 주입하는 것이 유망해 보인다.
인용구
"Activation steering techniques can be used to reduce risks from these capabilities."
"Combining steering vectors for multiple different behaviours into one steering vector is largely unsuccessful."