核心概念
다국어 LLM은 문화적 공통 지식을 충분히 포함하지 못하여 다양한 문화권의 속담과 격언을 이해하는 데 어려움을 겪는다.
摘要
이 연구는 다국어 LLM(mLLM)의 문화적 다양성 추론 능력을 속담과 격언을 통해 조사했다. 주요 발견은 다음과 같다:
-
mLLM은 제한적인 수의 속담만 "알고" 있으며, 속담을 암기하는 것이 대화 상황에서 이해하는 것을 의미하지 않는다.
-
mLLM은 비유적인 속담과 격언을 추론하는 데 어려움을 겪으며, 정답을 선택하라는 질문보다 오답을 선택하라는 질문에 더 취약하다.
-
다른 언어에서 번역된 속담과 격언을 추론할 때 mLLM에 "문화 격차"가 존재한다.
연구진은 6개 언어의 속담과 격언으로 구성된 MAPS 데이터셋을 구축하여 공개했다.
统计
다국어 LLM은 언어별로 속담 암기 수준이 크게 다르며, 영어와 중국어에 편향되어 있다.
속담 암기 수준이 높다고 해서 대화 상황에서 속담을 추론하는 능력이 높은 것은 아니다.
비유적인 속담은 대부분의 언어에서 mLLM이 추론하기 어려워한다.
다른 문화권의 속담을 번역하여 추론할 때 mLLM에 "문화 격차"가 존재한다.
引用
"다국어 LLM은 문화적 공통 지식을 충분히 포함하지 못하여 다양한 문화권의 속담과 격언을 이해하는 데 어려움을 겪는다."
"속담 암기 수준이 높다고 해서 대화 상황에서 속담을 추론하는 능력이 높은 것은 아니다."
"비유적인 속담은 대부분의 언어에서 mLLM이 추론하기 어려워한다."
"다른 문화권의 속담을 번역하여 추론할 때 mLLM에 "문화 격차"가 존재한다."