핵심 개념
NLP 모델에서 발생하는 '환각' 현상에 대한 다양한 정의와 측정 방법을 비판적으로 검토하고, 이에 대한 사회적 영향을 고찰한다.
초록
이 연구는 NLP 분야에서 '환각' 현상을 어떻게 정의하고 측정하는지 비판적으로 검토한다. 103개의 동료 검토 논문을 분석하여 '환각'에 대한 다양한 정의와 프레임워크를 확인했다. 또한 171명의 NLP 및 AI 연구자를 대상으로 한 설문조사를 통해 실무자들의 관점을 파악했다.
분석 결과, NLP 분야에서 '환각'에 대한 명확한 합의가 부족하며, 측정 방법 또한 표준화되지 않은 것으로 나타났다. 또한 '환각'에 대한 사회적 맥락과 영향에 대한 고려가 부족한 것으로 확인되었다.
이를 바탕으로 연구진은 NLP 모델의 '환각' 현상을 이해하고 해결하기 위한 저자 중심 및 커뮤니티 중심의 권장 사항을 제시했다. 이를 통해 NLP 분야에서 '환각'에 대한 보다 투명하고 책임감 있는 접근이 필요함을 강조했다.
통계
NLP 모델의 '환각' 현상에 대한 연구 논문 수가 최근 급증하고 있다.
설문 응답자의 67.28%가 매일 1회 이상 LLM(Large Language Model)을 사용한다고 응답했다.
설문 응답자의 46.91%가 '환각' 현상을 가끔 경험한다고 응답했다.
인용구
"Response that appears syntactically and semantically believable, but is not based on actual fact"
"When the model confidently states something that is not true"
"Hallucinations are just what is needed for models to be creative. In truth, unless AI text-generators are factually grounded with external knowledge for a specific field, they are just story generators which aim to be creative, hence"hallucinate.""