Core Concepts
실체 연결 기술을 활용하여 기존 희소 검색 모델의 성능을 향상시킬 수 있다.
Abstract
이 연구는 정보 검색 분야에서 실체 연결 기술을 활용하여 기존 희소 검색 모델의 성능을 향상시키는 방법을 제안한다.
기존 희소 검색 모델은 정확한 단어 일치에 의존하므로 어휘 불일치 문제에 취약하다.
반면 밀집 검색 모델은 문맥화된 표현을 활용하여 성능을 향상시킬 수 있지만, 계산 자원과 시간이 많이 소요되는 단점이 있다.
이 연구에서는 실체 연결 기술을 활용하여 쿼리와 문서를 확장함으로써 희소 검색 모델의 성능을 높이고자 한다.
실체 이름을 명시적 및 해시 형태로 추가하여 문서를 확장하고, 다양한 조합 기법을 통해 최대 recall 향상을 달성한다.
MS MARCO 데이터셋을 활용한 실험 결과, 제안 방법이 기존 BM25 모델 대비 recall@1000에서 성능 향상을 보였다.
Stats
실체 연결 기술을 활용하여 쿼리와 문서를 확장하면 기존 BM25 모델 대비 recall@1000이 향상된다.
명시적 실체 이름과 해시 실체 이름을 활용한 두 가지 확장 방식이 상호 보완적인 결과를 제공한다.
다양한 조합 기법(run fusion, classifier selection)을 통해 최대 recall 향상을 달성할 수 있다.
Quotes
"실체 연결 기술을 활용하여 희소 검색 모델의 성능을 향상시킬 수 있다."
"명시적 실체 이름과 해시 실체 이름을 활용한 두 가지 확장 방식이 상호 보완적인 결과를 제공한다."
"다양한 조합 기법을 통해 최대 recall 향상을 달성할 수 있다."