이 연구는 대형 언어 모델(LLM)의 노이즈 있는 지침에 대한 복원력을 조사했다. 5가지 유형의 노이즈(자동 음성 인식(ASR) 오류, 광학 문자 인식(OCR) 오류, 문법적 오류, 타이포그래픽 오류, 방해 콘텐츠)를 MMLU 벤치마크에 주입하여 모델 성능을 평가했다.
결과적으로 LLM은 문법적 오류에 대해 상대적으로 강한 복원력을 보였지만, 다른 유형의 노이즈에 대해서는 성능이 크게 저하되었다. 특히 ASR 및 OCR 오류는 모델 성능에 심각한 영향을 미쳤다. 또한 이전 대화 내용의 방해 콘텐츠도 모델 성능을 저하시켰다.
이를 해결하기 위해 "re-pass" 전략을 평가했다. 이 전략은 LLM을 사용하여 노이즈 있는 지침을 정제한 후 작업 수행 모델에 입력하는 것이다. 결과적으로 ChatGPT-3.5가 다른 모델에 비해 노이즈 정제에 더 효과적이었다. 그러나 전반적으로 노이즈 있는 지침을 효과적으로 처리하는 것은 여전히 과제로 남아 있다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究