Core Concepts
위키백과 편집 요약을 자동으로 생성하여 편집자들의 편집 내용 설명을 돕고 편집 내용 모니터링을 지원한다.
Abstract
이 논문은 위키백과 편집 요약의 품질과 특성을 분석하고, 이를 바탕으로 편집 요약을 자동으로 생성하는 모델 Edisum을 제안한다.
편집 요약은 위키백과 편집자들이 편집 내용을 설명하는 간단한 코멘트로, 편집 내용 모니터링과 연구에 중요한 역할을 한다. 그러나 많은 편집 요약이 누락되거나 불완전한 것으로 나타났다.
이를 해결하기 위해 Edisum 모델을 제안했다. Edisum은 편집 차이(diff)를 입력받아 편집 요약을 생성하는 언어 모델이다. 기존 위키백과 편집 요약 데이터와 합성 데이터를 활용해 모델을 학습시켰다.
자동 평가와 사람 평가 결과, Edisum은 인간 편집자 수준의 성능을 보였다. 대규모 언어 모델인 GPT-4가 더 높은 성능을 보였지만, 비용 문제로 인해 위키백과에 적용하기 어려운 것으로 나타났다. 따라서 Edisum은 위키백과와 같은 대규모 플랫폼에서 편집 요약을 자동으로 생성하는 효과적인 솔루션이 될 수 있다.
Stats
위키백과에서 매달 300만 건 이상의 편집이 이루어지고 있다.
편집 요약이 누락되거나 불완전한 경우가 많다.
Quotes
"편집 요약은 편집 내용을 설명하는 간단한 코멘트로, 편집 내용 모니터링과 연구에 중요한 역할을 한다."
"많은 편집 요약이 누락되거나 불완전한 것으로 나타났다."