Core Concepts
자연어 처리 시스템이 인간의 언어 이해 능력을 완전히 모방하기 위해서는 다양한 유형의 모호성을 해결할 수 있어야 한다.
Abstract
이 연구에서는 영어에서 발견되는 모호성의 새로운 분류 체계를 제안한다. 기존의 분류 체계가 충분하지 않다고 판단하여, 11가지 유형의 모호성을 정의하였다. 이 유형들은 언어 이해에 있어 서로 다른 도전과제를 나타내며, NLP 시스템 설계와 평가에 유용할 것으로 기대된다.
제안된 모호성 유형은 다음과 같다:
어휘적 모호성: 단어가 여러 가지 의미를 가질 수 있는 경우
통사적 모호성: 단어 배열이 여러 가지 문법 구조로 해석될 수 있는 경우
범위 모호성: 문장에 여러 개의 양화사나 범위 표현이 있어 그 상대적 순서가 모호한 경우
생략 모호성: 생략된 단어나 구절의 정체가 모호한 경우
집합/분배 모호성: 복수 표현이 집합적 또는 분배적으로 해석될 수 있는 경우
함축 모호성: 문장이 함축하는 의미가 모호한 경우
전제 모호성: 문장이 내포하는 전제가 모호한 경우
관용구 모호성: 단어 조합이 관용구로도, 문자적으로도 해석될 수 있는 경우
지시 모호성: 대명사의 지시 대상이 모호한 경우
일반/비일반 모호성: 문장이 일반적 특성을 기술하는지 특정 사건을 기술하는지 모호한 경우
유형/개체 모호성: 용어가 유형을 나타내는지 개체를 나타내는지 모호한 경우
이 분류 체계를 AMBIENT 벤치마크에 적용하여 각 유형의 상대적 빈도를 분석하고, 이를 바탕으로 더 균형 잡힌 데이터셋을 구축할 계획이다. 또한 모델의 각 유형별 성능을 분석하여 어려운 유형에 대한 특화된 평가 방식을 개발할 예정이다.
Stats
자연어 처리 시스템이 인간의 언어 이해 능력을 완전히 모방하기 위해서는 다양한 유형의 모호성을 해결할 수 있어야 한다.
제안된 11가지 모호성 유형은 언어 이해에 있어 서로 다른 도전과제를 나타낸다.
Quotes
"자연어 처리 시스템이 인간의 언어 이해 능력을 완전히 모방하기 위해서는 다양한 유형의 모호성을 해결할 수 있어야 한다."
"이 분류 체계를 AMBIENT 벤치마크에 적용하여 각 유형의 상대적 빈도를 분석하고, 이를 바탕으로 더 균형 잡힌 데이터셋을 구축할 계획이다."