核心概念
단순한 통계 및 위치 특징만을 사용하여 단일 문서에서 키프레이즈를 자동으로 추출하는 감독된 학습 접근법을 제안한다. 이 접근법은 외부 지식베이스나 사전 학습된 언어 모델 또는 단어 임베딩에 의존하지 않는다.
要約
이 논문은 단일 문서에서 키프레이즈를 자동으로 추출하는 감독된 학습 접근법을 제안한다. 이 접근법은 다음과 같은 주요 단계로 구성된다:
- 품사 순서에 기반하여 문서 텍스트에서 후보 구문을 추출한다.
- 각 후보 구문에 대해 통계적 및 위치 특징을 계산한다.
- 부분 순위 모델 또는 분류 모델을 사용하여 후보 구문을 순위화한다. 모델은 각 후보 구문에 점수를 부여하며, 상위 k개의 구문을 키프레이즈로 선택한다.
제안된 접근법은 외부 지식베이스나 사전 학습된 모델에 의존하지 않으므로 도메인 독립적이다. 벤치마크 데이터셋에 대한 평가 결과, 제안 모델은 여러 최신 기준 모델, 심지어 일부 딥러닝 기반 모델보다 더 높은 정확도를 달성한다. 또한 일부 감독된 딥러닝 기반 모델과도 경쟁력 있는 성능을 보인다.
統計
문서 내 키프레이즈 후보 구문의 출현 빈도는 키프레이즈 선택에 중요한 역할을 한다.
후보 구문의 문서 빈도(최대 스케일링)가 낮을수록 키프레이즈일 가능성이 높다.
후보 구문의 접미사 구문 빈도와 접미사 구문 문서 빈도는 키프레이즈 선택에 도움이 된다.
후보 구문의 첫 등장 위치는 키프레이즈 선택에 영향을 미친다.