이 연구는 CHARM이라는 벤치마크를 소개하여 대규모 언어 모델의 중국어 상식 추론 능력을 종합적이고 심층적으로 평가하였다. CHARM은 전 세계적으로 알려진 상식과 중국 특유의 상식을 모두 포함하고 있다. 연구진은 7개의 영어 모델과 12개의 중국어 지향 모델을 CHARM으로 평가하였으며, 5가지 대표적인 프롬프트 전략을 사용하였다.
연구 결과, 언어 모델의 언어 지향성과 과제 영역이 프롬프트 전략의 효과에 영향을 미치는 것으로 나타났다. 이는 이전 연구 결과를 보완하고 확장한다. 또한 연구진은 기억과 추론 간의 밀접한 관계를 분석하기 위해 서로 연결된 기억 및 추론 과제를 구축하였다. 이를 통해 일부 언어 모델은 중국어 상식을 기억하는 데 어려움을 겪어 추론 능력에 영향을 미치는 반면, 다른 모델은 유사한 기억 성능에도 불구하고 추론 능력에 차이가 있음을 발견하였다.
나아가 연구진은 기억에 독립적인 추론 능력을 평가하고 전형적인 오류를 분석하였다. 이를 통해 언어 모델의 강점과 약점을 정확히 파악하고 최적화 방향을 제시할 수 있었다. 이 연구 방법론은 다른 분야의 유사한 연구에 참고가 될 수 있다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jiaxing Sun,... lúc arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14112.pdfYêu cầu sâu hơn