Core Concepts
신경 순위 모델의 취약점을 효과적으로 탐색하기 위해 단일 수준의 문서 변형이 아닌 다중 수준의 문서 변형을 활용한다.
Abstract
이 논문은 신경 순위 모델(NRM)에 대한 다중 수준 적대적 공격 방법을 제안한다. 기존 연구는 단일 수준의 문서 변형(단어, 문장 등)을 활용했지만, 이는 문서의 다양한 취약점을 충분히 활용하지 못한다는 한계가 있다. 따라서 이 논문에서는 단어, 구, 문장 수준의 변형을 모두 활용하는 다중 수준 적대적 공격 방법을 제안한다.
구체적으로, 이 방법은 두 에이전트로 구성된다. 첫 번째 에이전트는 문서의 취약한 부분을 식별하고, 두 번째 에이전트는 식별된 취약점에 대한 변형을 생성하고 조직화한다. 이를 통해 다양한 수준의 변형을 효과적으로 활용할 수 있다. 실험 결과, 제안 방법이 기존 단일 수준 공격 방법보다 우수한 성능을 보였다.
Stats
제안 방법은 기존 단일 수준 공격 방법보다 RankLLM 모델에 대해 MS MARCO 데이터셋의 Hard 문서에서 T5R 지표 65.4%, Boost 지표 34.5% 향상을 보였다.
제안 방법은 RankLLM 모델에 대해 MS MARCO 데이터셋의 Mixture 문서에서 T5R 지표 34.8%, Boost 지표 25.1% 향상을 보였다.
Quotes
"단일 수준의 문서 변형은 문서의 다양한 취약점을 충분히 활용하지 못한다는 한계가 있다."
"제안 방법은 다양한 수준의 변형을 효과적으로 활용할 수 있다."