핵심 개념
지시-튜닝된 대형 언어 모델(LLMs)은 지시와 데이터를 분리할 수 없음을 보여줌.
초록
요약:
LLMs는 지시와 데이터를 분리하는 능력이 부족하며, 이로 인해 안전 문제 발생 가능성 존재.
새로운 측정 방법과 데이터셋을 소개하여 LLMs의 분리 정도를 실험적으로 측정.
실험 결과, 모든 평가된 LLMs가 높은 분리 정도를 달성하지 못함을 보여줌.
구조:
초록
서론
LLMs의 안전 문제
데이터셋 소개
실험 결과
토의 및 전망
감사의 글
참고 문헌
통계
Instruction-tuned Large Language Models (LLMs)는 안전 기능 부족
모든 평가된 LLMs가 높은 분리 정도를 달성하지 못함
인용구
"LLMs lack elementary safety features that are established norms in other areas of computer science."
"We quantitatively demonstrate that all evaluated LLMs fail to achieve a high amount of separation."