Kernekoncepter
대규모 언어 모델(LLM)의 견고성을 평가하기 위해 집합 연산을 활용한 새로운 벤치마크인 SetLexSem Challenge를 소개합니다. 본 연구는 LLM이 집합 연산 작업 수행 시 어휘 및 의미적 변형에 취약하며, 특히 "deceptive" 집합에서 고유한 실패 모드를 보인다는 것을 발견했습니다.
Resumé
SetLexSem Challenge: 대규모 언어 모델의 어휘 및 의미적 견고성 평가를 위한 집합 연산 활용
본 연구는 대규모 언어 모델(LLM)의 견고성, 즉 입력의 사소한 변화에도 일관된 성능을 유지하는 능력을 평가하는 것을 목표로 합니다.
본 연구에서는 집합 연산을 활용한 새로운 벤치마크 데이터셋인 SetLexSem을 제시합니다. SetLexSem은 집합 연산, 피연산자 크기, 토큰 유형, 토큰 길이, 토큰 빈도, 의미적 유사성, 프롬프트 방법, 데모 표현 방식, 문맥 내 데모 수 등 다양한 매개변수를 조작하여 LLM에 대한 입력을 체계적으로 변화시킵니다. 7개의 LLM (OpenAI GPT-3.5, Anthropic의 Claude 모델 3개, Mistral AI-Large, Mistral Small, Meta LLaMa 3 70b)을 SetLexSem으로 평가하고 정확도의 분산을 측정하여 견고성을 평가합니다.