Core Concepts
문법 모델의 우도비를 계산하여 문서의 저자를 검증하는 방법을 제안한다.
Abstract
이 논문은 저자 검증(Authorship Verification, AV) 문제를 다룬다. AV는 주어진 문서가 특정 저자에 의해 작성되었는지 여부를 판단하는 문제이다. 기존의 AV 방법들은 계산 복잡도가 높고 결과 해석이 어려운 단점이 있다.
이 논문에서는 문법 모델의 우도비를 계산하는 새로운 AV 방법인 LambdaG를 제안한다. LambdaG는 다음과 같은 과정으로 동작한다:
문서에서 품사 태깅을 통해 기능 토큰(function token)만 추출한다.
후보 저자 A의 문서 집합 DA와 참조 집합 Dref에서 각각 문법 모델 GA와 Gr을 구축한다.
미지의 저자 U의 문서 DU에 대해 각 토큰의 GA와 Gr에 의한 우도비 λG를 계산한다.
DU 전체의 λG 값을 합산하여 최종 λG(DU)를 얻는다.
훈련 데이터를 이용해 λG를 보정하여 최종 우도비 ΛG를 구한다.
LambdaG는 기존 방법에 비해 계산 복잡도가 낮고, 결과 해석이 용이하다. 또한 12개 데이터셋에 대한 실험에서 정확도와 AUC 측면에서 우수한 성능을 보였다. 특히 주제와 무관한 방법들을 비교했을 때 모든 데이터셋에서 최고 성능을 달성했다.
LambdaG는 인지언어학 이론과도 부합하는데, 문법 모델의 우도비가 저자의 언어 처리 과정을 반영하기 때문이다.
Stats
문서 DU에 대한 각 토큰 t의 GA와 Gr에 의한 우도비 log P(t|c;GA) / P(t|c;Gr)의 평균값인 λG(DU)를 계산한다.
최종 우도비 ΛG는 훈련 데이터를 이용해 λG를 보정하여 얻는다.