Core Concepts
자연어 처리 시스템이 인간의 언어 이해 능력을 완전히 모방하기 위해서는 다양한 유형의 모호성을 해결할 수 있어야 한다.
Abstract
이 연구에서는 영어에서 발견되는 모호성의 새로운 분류 체계를 제안한다. 기존의 분류 체계가 충분하지 않다고 판단하여, 11가지 유형의 모호성을 정의하였다. 이 유형들은 언어 이해에 있어 서로 다른 도전 과제를 나타내며, NLP 시스템의 성능 평가에 활용될 수 있다.
구체적으로 다음과 같은 모호성 유형을 제시하였다:
어휘적 모호성: 단어가 여러 가지 의미를 가질 수 있는 경우
통사적 모호성: 단어 배열이 여러 가지 문법 구조로 해석될 수 있는 경우
범위 모호성: 문장에 여러 개의 양화사나 범위 표현이 있어 그 상대적 순서가 모호한 경우
생략 모호성: 생략된 단어나 구절의 정체가 모호한 경우
집합/분배 모호성: 복수 표현이 집합적 또는 분배적으로 해석될 수 있는 경우
함축 모호성: 문장이 함축하는 의미가 모호한 경우
전제 모호성: 문장이 내포하는 전제가 모호한 경우
관용어 모호성: 관용구로 해석될 수도 있고 문자적으로 해석될 수도 있는 경우
지시 모호성: 대명사의 지시 대상이 모호한 경우
일반/비일반 모호성: 문장이 일반적 특성을 기술하는지 특정 사건을 기술하는지 모호한 경우
유형/토큰 모호성: 단어가 유형(type)을 나타내는지 토큰(token)을 나타내는지 모호한 경우
이 분류 체계를 AMBIENT 벤치마크에 적용하여 각 유형의 상대적 빈도를 분석하고, 이를 바탕으로 더 균형 잡힌 데이터셋을 구축할 계획이다. 또한 모델의 각 유형별 성능을 분석하여 취약점을 파악하고자 한다.
Stats
자연어 처리 시스템이 인간의 언어 이해 능력을 완전히 모방하기 위해서는 다양한 유형의 모호성을 해결할 수 있어야 한다.
영어에서 발견되는 11가지 모호성 유형을 정의하였다: 어휘적, 통사적, 범위, 생략, 집합/분배, 함축, 전제, 관용어, 지시, 일반/비일반, 유형/토큰 모호성.
이 분류 체계를 AMBIENT 벤치마크에 적용하여 각 유형의 상대적 빈도를 분석하고, 더 균형 잡힌 데이터셋을 구축할 계획이다.
Quotes
"자연어 처리 시스템이 인간의 언어 이해 능력을 완전히 모방하기 위해서는 다양한 유형의 모호성을 해결할 수 있어야 한다."
"이 분류 체계를 AMBIENT 벤치마크에 적용하여 각 유형의 상대적 빈도를 분석하고, 이를 바탕으로 더 균형 잡힌 데이터셋을 구축할 계획이다."