Core Concepts
대형 언어 모델은 표면적으로 유사한 문장들의 의미 차이를 정확히 구분하지 못하며, 특히 인과관계가 포함된 문장에 대해 편향된 판단을 내린다.
Abstract
이 논문은 대형 언어 모델(LLM)의 구문 구조와 의미 관계 이해 능력을 평가한다. 저자들은 세 가지 유형의 문장 구조(감정적 형용사구, 인지적 형용사구, 과도 인과 구문)를 구축하고, LLM의 성능을 다양한 방식으로 테스트했다.
실험 결과, LLM은 이러한 유사한 구조의 문장들을 구분하는 데 어려움을 겪었다. 특히 인과 관계가 포함된 문장에 대해 강한 편향을 보였다. Llama 2가 다른 모델에 비해 상대적으로 나은 성능을 보였지만, 여전히 완벽하지는 않았다.
저자들은 LLM이 어휘적 특성, 인과 관계의 방향성 등 문장의 의미적 차이를 충분히 포착하지 못하고 있음을 지적한다. 이는 LLM의 언어 이해 능력의 한계를 보여주는 사례라고 할 수 있다.
Stats
문장 구조가 복잡할수록 LLM의 성능이 낮아진다.
Llama 2가 다른 모델에 비해 상대적으로 나은 성능을 보였지만, 여전히 완벽하지 않다.
인과 관계가 포함된 문장에 대해 LLM은 강한 편향을 보인다.
Quotes
"LLMs exhibit limited capability to effectively discriminate between these constructions and display a strong bias towards CEC, meaning LLMs tend to judge sentences containing so... that... as causal and the adjective being the reason for the clausal complement."
"Generally, Llama 2 demonstrates superior performance compared to both GPT-3.5 and GPT-4."