核心概念
문장 유사성 분석을 위해 문장을 의미와 구문 정보를 보존하는 그래프로 표현하고, 이를 효율적으로 처리할 수 있는 일반화된 그래프 문법 기반 접근법을 제안한다.
摘要
이 논문은 문장 유사성 분석을 위한 새로운 접근법을 제안한다. 기존의 문장 임베딩 기반 접근법은 문장 내 개체의 위치 정보를 고려하지 않아 잘못된 결과를 초래할 수 있다. 이를 해결하기 위해 저자들은 문장을 의미와 구문 정보를 보존하는 그래프로 표현하고, 이를 효율적으로 처리할 수 있는 일반화된 그래프 문법 기반 접근법을 제안한다.
논문의 주요 내용은 다음과 같다:
- 문장을 의존 관계 그래프로 표현하고, 이를 효율적으로 처리할 수 있는 일반화된 그래프 문법 기반 접근법을 제안한다.
- 기존 그래프 쿼리 언어인 Cypher의 한계를 분석하고, 이를 극복할 수 있는 새로운 그래프 쿼리 언어를 제안한다.
- 제안한 접근법의 성능을 Neo4j와 비교 평가하여, 제안 방식이 기존 방식에 비해 최소 1 order of magnitude 이상 우수함을 보인다.
향후 연구 방향으로는 추가적인 문법 규칙 개발, 확장성 분석 등이 있다. 또한 인용 네트워크, 개체 분류 등 다른 분야에서의 활용 가능성도 제시된다.
統計資料
문장 (i) "There is no traffic in the Newcastle City Centre"
문장 (ii) "Newcastle City Centre is trafficked"
문장 (iii) "There is traffic but not in the Newcastle City Centre"
문장 (iv) "In Newcastle, traffic is flowing"
引述
"By representing sentences with vectors using the Sentiment Transformer library [11], the similarity1 across sentences with conflicting information ((ii) and (iii)) is higher than the one between compatible sentences (between (i) and either (iii) or (iv)), which is undesired."
"A high similarity between (i) and (ii) remarks the impossibility of this model to ascertain semantic information depending on the position of specific negation symbols."