Core Concepts
언어 모델과 인지 데이터 간의 유사성을 평가하는 MulCogBench 데이터셋은 언어 모델이 인간의 뇌와 유사한 작동 메커니즘을 가지고 있는지 탐구합니다.
Abstract
최근 사전 훈련된 언어 모델의 성공은 인간에게만 독특하다고 여겨졌던 언어 능력을 획득하는 데 놀라운 진전을 이루었습니다.
MulCogBench은 중국어와 영어 참가자로부터 수집된 다중 모달 인지 벤치마크 데이터셋으로, 언어 모델과 인지 데이터 간의 관계를 평가합니다.
언어 모델은 인간 인지 데이터와 상당한 유사성을 공유하며, 유사성 패턴은 데이터 모드 및 자극 복잡성에 의해 변조됩니다.
언어 모델은 뇌 언어 표현과 세밀한 관계를 가지고 있음을 보여주며, 중국어와 영어 간의 결과는 매우 일관성이 있습니다.
인트로
사전 훈련된 언어 모델의 성공은 인간 언어 처리와 관련된 관심을 불러일으켰습니다.
MulCogBench는 중국어와 영어 참가자로부터 수집된 다중 모달 인지 벤치마크 데이터셋입니다.
인지 데이터
인지 데이터는 뇌 활성화 및 행동 반응을 반영하여 언어 처리 방식을 보여줍니다.
다양한 인지 데이터 모달리티를 포함하며, 중국어와 영어의 데이터를 비교합니다.
언어 모델
Word2vec, GloVe, BERT, GPT-2와 같은 네 가지 대표적인 언어 모델을 사용하여 유사성-인코딩 분석을 수행합니다.
언어 모델의 성능은 인지 데이터의 모달리티 및 언어 단위에 따라 변조됩니다.
결과 및 분석
중국어와 영어 모두, 언어 모델은 인지 데이터와 상당한 상관 관계를 보입니다.
언어 모델과 인지 데이터 간의 유사성 패턴은 다양한 인지 데이터 모달리티 및 언어 단위에 따라 다릅니다.
언어 모델의 성능은 언어 단위의 복잡성에 따라 변조되며, 언어 모델의 다양한 층은 인간 언어 메커니즘의 다른 측면을 시뮬레이션할 수 있습니다.
Stats
언어 모델은 인간 인지 데이터와 상당한 유사성을 공유합니다.
언어 모델의 성능은 인지 데이터의 모달리티와 언어 단위에 따라 변조됩니다.
Quotes
"언어 모델은 뇌 언어 표현과 세밀한 관계를 가지고 있음을 보여준다."
"언어 모델과 인지 데이터 간의 유사성 패턴은 데이터 모드 및 자극 복잡성에 의해 변조된다."