Core Concepts
자연어 처리 시스템이 인간의 언어 이해 능력을 완전히 모방하기 위해서는 다양한 유형의 모호성을 효과적으로 다루어야 한다.
Abstract
이 연구에서는 영어에서 발견되는 모호성의 새로운 분류 체계를 제안한다. 기존의 분류 체계가 충분하지 않다고 판단하여, 11가지 유형의 모호성을 정의하였다. 이 유형들은 언어 이해에 있어 서로 다른 도전과제를 나타내며, NLP 시스템의 성능 평가에 활용될 수 있다.
구체적으로 다루는 모호성 유형은 다음과 같다:
어휘적 모호성: 단어가 여러 가지 의미를 가질 수 있는 경우
통사적 모호성: 단어 배열이 여러 가지 문법 구조로 해석될 수 있는 경우
범위적 모호성: 문장에 여러 개의 양화사나 범위 표현이 있어 그 상대적 순서가 모호한 경우
생략적 모호성: 생략된 단어나 구절의 정체가 모호한 경우
집합적/분배적 모호성: 복수 표현이 집합적 또는 분배적으로 해석될 수 있는 경우
함축적 모호성: 문장이 함축하는 의미가 모호한 경우
전제적 모호성: 문장이 내포하는 전제가 모호한 경우
관용적 모호성: 문장이 관용구로 해석될 수도 있고 문자적으로 해석될 수도 있는 경우
지시적 모호성: 대명사의 지시 대상이 모호한 경우
일반적/비일반적 모호성: 문장이 일반적 특성을 기술하거나 특정 사건을 기술할 수 있는 경우
유형/토큰 모호성: 단어가 유형(type)이나 토큰(token)으로 해석될 수 있는 경우
이 분류 체계를 활용하여 AMBIENT 벤치마크 데이터셋을 분석하고, 모호성 유형별 상대적 빈도를 추정할 계획이다. 이를 통해 보다 균형잡힌 데이터셋을 구축하고, 모델의 유형별 성능을 분석할 수 있을 것으로 기대된다.
Stats
자연어 처리 시스템은 인간의 언어 이해 능력을 완전히 모방하기 위해서는 다양한 유형의 모호성을 효과적으로 다루어야 한다.
기존의 분류 체계가 충분하지 않아 11가지 유형의 모호성을 새롭게 정의하였다.
이 유형들은 언어 이해에 있어 서로 다른 도전과제를 나타내며, NLP 시스템의 성능 평가에 활용될 수 있다.
Quotes
"자연어 처리 시스템이 인간의 언어 이해 능력을 완전히 모방하기 위해서는 다양한 유형의 모호성을 효과적으로 다루어야 한다."
"기존의 분류 체계가 충분하지 않아 11가지 유형의 모호성을 새롭게 정의하였다."
"이 유형들은 언어 이해에 있어 서로 다른 도전과제를 나타내며, NLP 시스템의 성능 평가에 활용될 수 있다."