핵심 개념
대규모 언어 모델(LLM)이 사소한 오타에도 취약하며, 이러한 취약성을 악용하는 공격 알고리즘(ATA)과 벤치마크(R2ATA)를 소개하여 LLM의 견고성을 평가하고 개선 방안을 제시합니다.
초록
대규모 언어 모델의 오타 공격에 대한 추론 견고성 분석
본 연구 논문에서는 대규모 언어 모델(LLM)이 사소한 오타에도 취약하며, 이러한 취약성을 악용하는 공격 알고리즘(ATA)과 벤치마크(R2ATA)를 소개하여 LLM의 견고성을 평가하고 개선 방안을 제시합니다.
본 연구는 LLM의 오타에 대한 추론 견고성을 평가하고, 이를 악용하는 공격 알고리즘인 ATA를 개발하여 LLM의 취약성을 분석하는 것을 목표로 합니다. 또한, R2ATA 벤치마크를 통해 다양한 LLM의 견고성을 비교 분석하고 개선 방안을 제시하고자 합니다.
Adversarial Typo Attack (ATA) 알고리즘 개발
연구팀은 입력 텍스트에 미묘한 오타를 삽입하여 LLM의 추론 능력을 저하시키는 ATA 알고리즘을 개발했습니다. ATA는 입력 텍스트에서 가장 영향력 있는 단어를 식별하고, 오타 사전을 활용하여 자연스러운 오타를 생성합니다. 이를 통해 LLM이 오답을 생성하도록 유도합니다.
R2ATA 벤치마크 구축 및 평가
연구팀은 GSM8K, BBH, MMLU 등 세 가지 추론 데이터셋을 사용하여 R2ATA 벤치마크를 구축했습니다. 다양한 크기와 아키텍처를 가진 LLM을 R2ATA 벤치마크를 통해 평가하여 오타 공격에 대한 견고성을 비교 분석했습니다.