Khái niệm cốt lõi
본 논문에서는 대화형 시나리오에서 챗 오디오 공격에 대한 대규모 언어 모델(LLM)의 취약성을 평가하기 위한 벤치마크인 CAA(Chat-Audio Attacks)를 제시하고, 표준 평가, GPT-4o 기반 평가, 인간 평가라는 세 가지 평가 방법을 통해 6개의 최첨단 LLM을 비교 분석하여 각 모델의 강점과 약점을 분석합니다.
Tóm tắt
챗 오디오 공격으로부터 안전한 대규모 언어 모델은? - LLM 취약성 평가를 위한 벤치마크 제시
본 연구는 대화형 시나리오에서 챗 오디오 공격에 대한 대규모 언어 모델(LLM)의 취약성을 평가하는 것을 목표로 합니다. 이를 위해 다양한 유형의 오디오 공격을 포함하는 벤치마크를 구축하고, 여러 평가 방법을 통해 최첨단 LLM의 성능을 비교 분석합니다.
1. CAA 벤치마크 구축
본 연구에서는 챗 오디오 공격(CAA) 벤치마크를 구축했습니다. CAA 벤치마크는 콘텐츠 공격, 감정 공격, 명시적 노이즈 공격, 암시적 노이즈 공격의 네 가지 유형의 오디오 공격으로 구성되며, 각 유형별로 다양한 공격 변형을 포함하여 총 1,680개의 공격 오디오 샘플을 제공합니다.
2. LLM 모델 선정 및 평가 방법
본 연구에서는 SpeechGPT, SALMONN, Qwen2-Audio, LLama-Omni, Gemini-1.5-pro, GPT-4o 등 음성 기반 대화를 지원하는 6개의 최첨단 LLM을 선정하여 CAA 벤치마크를 사용하여 평가했습니다. 평가는 표준 평가, GPT-4o 기반 평가, 인간 평가의 세 가지 방법으로 진행되었습니다.
2.1 표준 평가
표준 평가에서는 WER, ROUGE-L, COS와 같은 전통적인 지표를 사용하여 공격 환경에서 모델의 성능을 정량화했습니다.
2.2 GPT-4o 기반 평가
GPT-4o 기반 평가에서는 실제 대화의 복잡성을 시뮬레이션하여 표준 지표가 놓칠 수 있는 미묘한 부정확성을 포착했습니다.
2.3 인간 평가
인간 평가에서는 실제 사용자 경험과 인식을 반영하여 사용자 신뢰에 대한 중요한 통찰력을 제공했습니다.