이 연구는 대화형 언어 모델(GLM)의 출력물에 대한 독성 점수 기반 필터링의 한계를 지적하고, 사용자가 개인별 허용 수준을 설정할 수 있는 재발권 메커니즘을 제안한다.
독성 점수 기반 필터링은 소수 집단의 언어 사용에 대해 부정확한 결과를 초래할 수 있다. 이는 해당 집단의 콘텐츠 삭제, 계정 정지 등의 차별적 결과로 이어질 수 있다.
제안된 재발권 메커니즘은 사용자가 개인별 독성 허용 수준을 설정할 수 있게 한다. 사용자는 모델 출력물의 독성 점수가 허용 수준을 초과할 경우 해당 내용을 확인하고, 향후 필터링 여부를 결정할 수 있다. 이를 통해 사용자의 언어 재발권을 지원하고자 한다.
파일럿 연구 결과, 사용자들은 대부분 재발권 기능을 활용하였으며, 이를 통해 대화형 언어 모델의 사용성이 향상되는 것으로 나타났다. 그러나 사용자들은 모델 출력물 수정에 어려움을 겪는 것으로 보여, 향후 연구에서는 사용자 경험 개선이 필요할 것으로 보인다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問