核心概念
대화형 언어 모델의 출력물에 대한 독성 점수 기반 필터링은 소수 집단에 대한 차별적 결과를 초래할 수 있다. 이에 사용자가 개인별 허용 수준을 설정할 수 있는 재발권 메커니즘을 제안하여, 사용자의 언어 재발권을 지원하고자 한다.
摘要
이 연구는 대화형 언어 모델(GLM)의 출력물에 대한 독성 점수 기반 필터링의 한계를 지적하고, 사용자가 개인별 허용 수준을 설정할 수 있는 재발권 메커니즘을 제안한다.
독성 점수 기반 필터링은 소수 집단의 언어 사용에 대해 부정확한 결과를 초래할 수 있다. 이는 해당 집단의 콘텐츠 삭제, 계정 정지 등의 차별적 결과로 이어질 수 있다.
제안된 재발권 메커니즘은 사용자가 개인별 독성 허용 수준을 설정할 수 있게 한다. 사용자는 모델 출력물의 독성 점수가 허용 수준을 초과할 경우 해당 내용을 확인하고, 향후 필터링 여부를 결정할 수 있다. 이를 통해 사용자의 언어 재발권을 지원하고자 한다.
파일럿 연구 결과, 사용자들은 대부분 재발권 기능을 활용하였으며, 이를 통해 대화형 언어 모델의 사용성이 향상되는 것으로 나타났다. 그러나 사용자들은 모델 출력물 수정에 어려움을 겪는 것으로 보여, 향후 연구에서는 사용자 경험 개선이 필요할 것으로 보인다.
统计
대화 참여자 수는 실험 조건에 따라 평균 24회(표준편차 11회)와 21회(표준편차 12회)로 나타났다.
단어 수와 문자 수는 실험 조건 간 큰 차이가 없었다.
독성 점수 또한 실험 조건 간 유의미한 차이가 없었다.
引用
"Chinchilla's response contains [𝑐𝑖's most-toxic n-gram] and [𝑐𝑖's second most-toxic n-gram], which we estimate likely falls within the following negative categories: [...]. Would you like to see it?"
"After seeing Chinchilla's response, should we filter responses like this in the future?"