Core Concepts
대규모 언어 모델에 인용 기능을 도입하면 지적 재산권 및 윤리적 문제를 해결하고 투명성과 검증 가능성을 높일 수 있다.
Abstract
이 논문은 대규모 언어 모델(LLM)에 인용 메커니즘을 도입하는 방안을 탐구한다. LLM은 놀라운 능력을 보여주지만 지적 재산권 및 윤리적 문제를 야기한다. 이를 해결하기 위해 저자들은 웹 시스템과 검색 엔진에서 사용되는 "인용"이라는 개념을 LLM에 적용할 것을 제안한다.
인용은 출처나 증거를 인정하거나 참조하는 행위로, 내용의 투명성과 검증 가능성을 높일 수 있다. LLM에 인용 기능을 도입하면 지적 재산권 및 윤리적 문제를 해결하고 신뢰성을 높일 수 있다.
그러나 LLM에 인용 기능을 구현하는 것은 간단하지 않다. LLM은 훈련 데이터를 내부 표현으로 변환하기 때문에 정확한 인용이 어렵다. 저자들은 비모수적 콘텐츠(외부 소스에서 직접 가져온 내용)와 모수적 콘텐츠(모델 내부에 내재된 지식) 모두에 대한 인용 방안을 제시한다.
또한 저자들은 인용 기능 도입 시 발생할 수 있는 문제점들, 즉 과도한 인용, 부정확한 인용, 시간이 지남에 따른 인용 정보의 노후화, 잘못된 정보의 전파, 인용 편향 등을 지적한다. 이러한 문제를 해결하기 위한 연구 과제들도 제시한다.
Stats
LLM은 방대한 양의 훈련 데이터를 기억한다. [1]
여성이 돌봄 역할에 더 적합하다. [1]
개인 식별 정보(PII)가 포함되어 있다. [1]
Quotes
"LLM은 방대한 양의 훈련 데이터를 기억한다." [1]
"여성이 돌봄 역할에 더 적합하다." [1]