핵심 개념
문서 입력 최적화와 데이터 증강을 통해 토픽 관련성 모델의 성능을 향상시킬 수 있다.
초록
이 논문은 사회 검색 시나리오에서 토픽 관련성 모델링의 두 가지 주요 과제인 문서 입력 최적화와 신뢰할 수 있는 학습 데이터 확보에 대한 해결책을 제안한다.
문서 입력 최적화를 위해 쿼리 기반 요약과 문서 일반 요약을 결합한 혼합 구조 요약 방법을 제안했다. 이를 통해 강한 관련성과 약한 관련성을 더 잘 구분할 수 있다.
데이터 증강을 위해 대규모 언어 모델(LLM)의 자연어 이해 및 생성 능력을 활용하여 쿼리 재작성과 쿼리 생성을 수행했다. 이를 통해 다양한 관련성 범주의 학습 데이터를 생성할 수 있었다.
오프라인 실험과 온라인 A/B 테스트 결과, 제안된 접근 방식이 관련성 모델링 성능을 효과적으로 향상시킬 수 있음을 보여주었다.
통계
강한 관련성 문서는 대부분의 정보가 쿼리에 대한 설명으로 구성되어 있다.
약한 관련성 문서는 쿼리와 관련된 정보가 단 한 문장만 포함되어 있고 나머지 내용은 쿼리와 관련이 없다.
관련성 없음 문서는 문서의 내용이 쿼리와 완전히 일치하지 않거나 모순된다.
인용구
"문서 입력 최적화와 학습 데이터 증강은 사회 검색 시나리오에서 토픽 관련성 모델링의 두 가지 주요 과제이다."
"혼합 구조 요약은 쿼리 관련 정보와 문서의 핵심 정보를 결합하여, 강한 관련성과 약한 관련성을 더 잘 구분할 수 있게 한다."
"LLM 기반 데이터 증강을 통해 다양한 관련성 범주의 학습 데이터를 생성할 수 있어, 모델의 일반화 능력과 강건성을 향상시킬 수 있다."