Core Concepts
대형 언어 모델은 관련 없는 정보에 의해 쉽게 오도될 수 있으며, 특히 의미적으로 관련된 정보에 취약하다.
Abstract
이 연구는 대형 언어 모델의 관련 없는 정보에 대한 강건성을 종합적으로 조사했다. 연구진은 의미적으로 관련 없는, 부분적으로 관련된, 관련된 정보를 체계적으로 구축하여 실험을 진행했다. 주요 발견은 다음과 같다:
일반적인 의미적으로 관련 없는 정보에 비해, 대형 언어 모델은 의미적으로 밀접하게 관련된 관련 없는 정보에 의해 더 쉽게 오도될 수 있다.
관련 없는 정보의 양이 늘어날수록, 대형 언어 모델은 진정으로 관련된 정보를 식별하는 능력이 떨어지고 더 쉽게 오도된다.
질문 형식에 따라 대형 언어 모델의 관련 없는 정보에 대한 강건성이 다르며, 자유 형식 질문이 가장 강건하다.
관련 없는 정보에 대한 대형 언어 모델의 식별 능력을 높이려는 현재 전략은 제한적이며 때로는 해롭다.
Stats
관련 없는 정보의 양이 늘어날수록 대형 언어 모델의 오도 비율이 증가한다.
GPT-3.5 Turbo의 경우 관련 없는 정보가 1개일 때 오도 비율이 5.5%였지만, 3개일 때 27.4%로 증가했다.
Llama2-7B의 경우 관련 없는 정보가 1개일 때 오도 비율이 11.8%였지만, 3개일 때 42.4%로 증가했다.
Quotes
"대형 언어 모델은 의미적으로 밀접하게 관련된 관련 없는 정보에 의해 더 쉽게 오도될 수 있다."
"관련 없는 정보의 양이 늘어날수록, 대형 언어 모델은 진정으로 관련된 정보를 식별하는 능력이 떨어지고 더 쉽게 오도된다."
"질문 형식에 따라 대형 언어 모델의 관련 없는 정보에 대한 강건성이 다르며, 자유 형식 질문이 가장 강건하다."