Conceitos Básicos
순서-대-순서 관련성 모델은 자연어 토큰을 사용하는 프롬프트로 인해 악의적인 문서에 의해 관련성 점수를 조작당할 수 있다.
Resumo
이 논문은 순서-대-순서 관련성 모델에 대한 적대적 공격을 분석한다.
순서-대-순서 관련성 모델은 쿼리와 문서 간의 복잡한 텍스트 상호작용을 효과적으로 포착할 수 있지만, 'Query', 'Document', 'Relevant' 등의 자연어 토큰을 사용하는 프롬프트로 인해 악의적인 문서가 프롬프트 삽입을 통해 관련성 점수를 조작할 수 있는 취약점이 있다.
연구진은 수동으로 구축한 템플릿과 LLM 기반 문서 재작성을 통한 프롬프트 삽입 공격이 다양한 순서-대-순서 관련성 모델에 미치는 영향을 분석했다.
TREC Deep Learning 트랙 실험 결과, 적대적 문서가 다양한 순서-대-순서 관련성 모델을 쉽게 조작할 수 있지만 BM25와 같은 어휘 모델은 영향을 받지 않는 것으로 나타났다.
또한 프롬프트 토큰에 의존하지 않는 인코더 전용 관련성 모델도 일정 부분 영향을 받는 것으로 확인되었다.
Estatísticas
적대적 문서는 monoT5 관련성 모델의 순위를 최대 111단계 개선할 수 있다.
'relevant' 토큰을 5회 반복 삽입하면 monoT5 모델의 순위를 최대 78단계 개선할 수 있다.
'information' 토큰을 5회 반복 삽입하면 monoT5 모델의 순위를 최대 77단계 개선할 수 있다.
Citações
"순서-대-순서 관련성 모델은 자연어 프롬프트 토큰을 사용하여 악의적인 문서가 프롬프트 삽입을 통해 관련성 점수를 조작할 수 있는 취약점이 있다."
"TREC Deep Learning 트랙 실험 결과, 적대적 문서가 다양한 순서-대-순서 관련성 모델을 쉽게 조작할 수 있지만 BM25와 같은 어휘 모델은 영향을 받지 않는 것으로 나타났다."
"프롬프트 토큰에 의존하지 않는 인코더 전용 관련성 모델도 일정 부분 영향을 받는 것으로 확인되었다."