핵심 개념
실체 연결 기술을 활용하여 기존 희소 검색 모델의 성능을 향상시킬 수 있다.
초록
이 연구는 정보 검색 분야에서 실체 연결 기술을 활용하여 기존 희소 검색 모델의 성능을 향상시키는 방법을 제안한다.
- 기존 희소 검색 모델은 정확한 단어 일치에 의존하므로 어휘 불일치 문제에 취약하다.
- 반면 밀집 검색 모델은 문맥화된 표현을 활용하여 성능을 향상시킬 수 있지만, 계산 자원과 시간이 많이 소요되는 단점이 있다.
- 이 연구에서는 실체 연결 기술을 활용하여 쿼리와 문서를 확장함으로써 희소 검색 모델의 성능을 높이고자 한다.
- 실체 이름을 명시적 및 해시 형태로 추가하여 문서를 확장하고, 다양한 조합 기법을 통해 최대 recall 향상을 달성한다.
- MS MARCO 데이터셋을 활용한 실험 결과, 제안 방법이 기존 BM25 모델 대비 recall@1000에서 성능 향상을 보였다.
통계
실체 연결 기술을 활용하여 쿼리와 문서를 확장하면 기존 BM25 모델 대비 recall@1000이 향상된다.
명시적 실체 이름과 해시 실체 이름을 활용한 두 가지 확장 방식이 상호 보완적인 결과를 제공한다.
다양한 조합 기법(run fusion, classifier selection)을 통해 최대 recall 향상을 달성할 수 있다.
인용구
"실체 연결 기술을 활용하여 희소 검색 모델의 성능을 향상시킬 수 있다."
"명시적 실체 이름과 해시 실체 이름을 활용한 두 가지 확장 방식이 상호 보완적인 결과를 제공한다."
"다양한 조합 기법을 통해 최대 recall 향상을 달성할 수 있다."