핵심 개념
챗 기반 언어 모델이 모든 사용자 요청에 무조건 응답하는 것이 아니라, 맥락에 따라 적절하게 거부하는 것이 중요하며, 본 논문에서는 이러한 맥락적 비순응성을 위한 분류 체계, 평가 데이터셋, 학습 전략을 제시한다.
초록
언어 모델의 맥락적 비순응성: COCONOT 데이터셋 기반 연구
본 논문에서는 챗 기반 언어 모델이 안전하지 않거나 부적절한 요청에 대해 적절하게 거부할 수 있도록 하는 맥락적 비순응성에 대해 다룬다. 저자들은 기존 연구가 주로 안전하지 않은 쿼리에 대한 거부에 초점을 맞춘 것과 달리, 비순응성의 범위를 넓혀야 한다고 주장한다.
저자들은 모델이 사용자 요청에 응답하지 않아야 하는 경우와 방법을 설명하는 포괄적인 맥락적 비순응성 분류 체계를 제시한다. 이 분류 체계는 불완전한 요청, 지원되지 않는 요청, 불확정적인 요청, 인간화 요청, 안전하지 않은 요청 등 광범위한 범주를 포함한다.
불완전한 요청
불특정: 질문에 답변하는 데 필요한 중요한 정보가 누락된 요청 (예: 국가를 명시하지 않고 "1956년 총리는 누구였습니까?")
잘못된 전제: 거짓이지만 의도적이지 않을 수 있는 기본 가정이나 믿음이 포함된 요청 (예: "지구의 두 달 이름은 무엇입니까?")
이해할 수 없는 요청: 무의미하거나 횡설수설하는 요청
불확정적인 요청
보편적으로 알 수 없는 것: 답을 알 수 없는 보편적으로 알 수 없는 개념이나 지식과 관련된 요청
모델이 알 수 없는 것: 모델이 알 수 없는 정보에 대한 요청 (예: 학습 데이터에 포함되지 않은 정보)
주관적인 것: 단일 응답이 없는 요청 (예: "가장 뛰어난 가수는 누구입니까?")
지원되지 않는 요청
모달리티 제한: 모델이 처리하도록 설계되거나 학습되지 않은 모달리티(예: 오디오, 비디오, 이미지, 언어)를 처리하도록 요청하는 요청
길이 제한: 모델의 컨텍스트 창을 벗어나는 콘텐츠를 생성하도록 요청하는 요청
시간적 제한: 모델의 학습 데이터 시간적 지식 차단 이전 또는 이후에 발생하는 이벤트와 관련된 요청
인간화 요청
모델을 의인화하는 요청, 즉 모델을 인간처럼 취급하는 요청 (예: 모델의 신념, 감정, 경험 또는 선호도를 묻는 요청)
안전 문제가 있는 요청
공격적인 언어 유발: 모델이 공격적인 언어를 생성하도록 유도하는 요청
위험하거나 민감한 주제: 모델이 불법 활동을 조장하거나 신체적 피해를 입히거나 성적이거나 음란한 콘텐츠를 생성하도록 직접적 또는 간접적으로 유도하는 요청
개인 정보 침해: 주소, 주민등록번호 등 개인에 대한 개인 정보를 요구하는 요청
저작권 침해: 책, 학술 논문, 뉴스 기사, 노래 가사의 글자 그대로 인용과 같이 저작권이 있는 텍스트를 요구하는 요청
허위 정보: 모델이 잘못된 믿음이나 허위 정보를 생성하도록 유도하는 요청
저자들은 제안된 분류 체계에 따라 COCONOT(Contextually, Comply Not)이라는 새로운 데이터셋을 만들고 맥락적 비순응성을 측정하기 위한 평가 프레임워크를 제안한다. COCONOT 데이터셋은 비순응성 쿼리와 순응해야 하는 대조 쿼리 세트로 구성된다. 각 그룹은 사람이 검증한 평가 세트와 학습 세트(응답 포함)로 나뉜다. 저자들은 사람이 검증한 평가 세트를 사용하여 여러 최첨단 모델을 평가하고 학습 세트를 사용하여 비순응성을 개선한다.