核心概念
단어 사용 그래프(WUG)의 클러스터에 인간이 읽을 수 있는 정의를 자동으로 생성하여 추가함으로써 단어 의미 변화 분석을 위한 데이터셋을 개선하였다.
摘要
이 연구에서는 단어 사용 그래프(WUG)의 클러스터에 인간이 읽을 수 있는 정의를 자동으로 생성하여 추가하는 방법을 제안하였다.
- 영어, 독일어, 노르웨이어, 러시아어 WUG 데이터셋을 대상으로 실험을 진행하였다.
- 기존 방식인 WordNet 정의 선택 방식과 새로 제안한 언어 모델 기반 정의 생성 방식을 비교 평가하였다.
- 언어 모델 기반 정의 생성 방식이 기존 방식보다 우수한 성능을 보였다.
- 생성된 정의를 포함한 WUG 데이터셋을 공개하여 단어 의미 변화 분석 연구에 활용할 수 있도록 하였다.
- 생성된 정의에는 여전히 개선의 여지가 있지만, 단어 의미 변화 탐지 등 다양한 NLP 작업에서 유용하게 활용될 수 있을 것으로 기대된다.
統計資料
단어 사용 그래프에서 클러스터 내 대부분의 예시에 부합하는 정의를 생성하는 것이 어렵다.
정의가 너무 광범위하거나 다른 의미를 설명하는 경우가 많다.
사실적 오류, 반복, 의미 없는 단어 조합 등의 문제도 발견된다.
引述
"단어 사용 그래프(WUG)의 클러스터에 인간이 읽을 수 있는 정의를 자동으로 생성하여 추가함으로써 단어 의미 변화 분석을 위한 데이터셋을 개선하였다."
"언어 모델 기반 정의 생성 방식이 기존 방식보다 우수한 성능을 보였다."
"생성된 정의를 포함한 WUG 데이터셋을 공개하여 단어 의미 변화 분석 연구에 활용할 수 있도록 하였다."