이 논문은 자기회귀 대형 언어 모델(LLM)에서 일반화 실패의 놀라운 사례를 보여준다. LLM이 "A는 B다"라는 문장을 학습하면 자동으로 "B는 A다"로 일반화하지 못한다. 이를 "역전 저주"라고 부른다.
예를 들어, LLM이 "발렌티나 테레슈코바는 최초의 우주 여행자였다"를 학습하더라도 "누가 최초의 우주 여행자였는가?"라는 질문에 "발렌티나 테레슈코바"라고 답하지 못한다. 오히려 임의의 이름을 답할 가능성이 더 높다.
따라서 LLM은 훈련 데이터에 널리 나타나는 패턴을 일반화하지 못한다. "A는 B다"가 나오면 "B는 A다"가 더 자주 나타나는 것이다.
다만 "A는 B다"가 문맥에 나타나면 LLM은 역관계를 추론할 수 있다.
이 논문은 GPT-3과 Llama-1을 사용하여 가상의 인물에 대한 문장으로 실험을 진행했다. 모델은 "A는 B다"를 학습하더라도 "B는 A다"를 올바르게 예측하지 못했다. 이는 모델 크기와 모델 종류에 상관없이 나타났으며, 데이터 증강으로도 해결되지 않았다.
또한 실제 유명인사에 대한 질문 실험에서도 GPT-4가 "누가 톰 크루즈의 어머니인가?"에는 79% 정확도로 답했지만, "누구의 아들이 톰 크루즈인가?"에는 33% 정확도에 그쳤다. 이는 역전 저주 때문으로 추정된다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Lukas Berglu... at arxiv.org 04-08-2024
https://arxiv.org/pdf/2309.12288.pdfDeeper Inquiries