Core Concepts
언어 모델의 내부 표현을 활성화 공간에서 수정하여 효율적으로 독성을 제거할 수 있다.
Abstract
이 논문은 언어 모델의 독성 제거를 위한 새로운 방법인 DESTEIN을 제안한다. DESTEIN은 모델의 내부 표현을 활성화 공간에서 수정하여 독성을 제거한다. 구체적으로:
모델 자체에서 추출한 독성 및 비독성 문장 쌍을 이용하여 독성 제거 벡터를 계산한다.
추론 시 이 벡터를 모델의 출력에 융합하여 독성을 제거한다.
헤드별 프로브 기법을 활용하여 각 활성화 공간의 중요도를 조절함으로써 모델의 생성 능력을 유지한다.
실험 결과, DESTEIN은 기존 방법들보다 독성 제거 성능이 크게 향상되었으며, 생성 품질과 다양성도 잘 유지되었다. 또한 대규모 언어 모델에도 효과적으로 적용될 수 있음을 보였다.
Stats
독성 문장과 비독성 문장의 차이 벡터가 활성화 공간에서 독성-비독성 방향을 가리킨다.
헤드별 프로브 기법을 통해 각 활성화 공간의 독성 구분 능력을 측정할 수 있다.
Quotes
"언어 모델의 내부 표현을 활성화 공간에서 수정하여 효율적으로 독성을 제거할 수 있다."
"DESTEIN은 기존 방법들보다 독성 제거 성능이 크게 향상되었으며, 생성 품질과 다양성도 잘 유지되었다."