Core Concepts
ABSPYRAMID는 언어 모델의 추상화 능력을 종합적으로 평가하기 위한 통합된 추론 그래프이다. 기존 자원들은 단순화된 이벤트나 특정 도메인 내에서 명사 또는 동사만을 다루지만, ABSPYRAMID는 다양한 이벤트의 세 가지 구성 요소(명사, 동사, 전체 이벤트)에 대한 추상 지식을 수집하여 언어 모델의 추상화 능력을 포괄적으로 평가한다.
Abstract
ABSPYRAMID는 언어 모델의 추상화 능력을 종합적으로 평가하기 위한 통합된 추론 그래프이다. 기존 자원들은 단순화된 이벤트나 특정 도메인 내에서 명사 또는 동사만을 다루지만, ABSPYRAMID는 다양한 이벤트의 세 가지 구성 요소(명사, 동사, 전체 이벤트)에 대한 추상 지식을 수집하여 언어 모델의 추상화 능력을 포괄적으로 평가한다.
ABSPYRAMID는 221,000개의 텍스트 설명으로 구성된 통합 추론 그래프이다. 이벤트의 세 가지 구성 요소(명사, 동사, 전체 이벤트)에 대한 추상 개념을 수집하였다. 구체적으로 ASER에서 기반 이벤트를 샘플링하고, 휴리스틱 규칙을 사용하여 명사와 동사를 식별한 후, WordNet과 언어 모델 프롬프팅을 통해 추상 개념을 수집하였다. 이렇게 수집된 개념 후보들은 군중 검증을 거쳐 최종 그래프를 구축하였다.
ABSPYRAMID 벤치마크를 통해 언어 모델이 (1) 유효한 추상 개념을 식별할 수 있는지, (2) 추상 개념을 생성할 수 있는지를 평가하였다. 실험 결과, 현재 대규모 언어 모델들은 제로샷 및 소수 샷 설정에서 추상화 지식을 이해하는 데 어려움을 겪는 것으로 나타났다. 반면, 미세 조정된 언어 모델은 특히 명사에 대한 추상화 지식을 더 잘 이해할 수 있다. 또한 우리의 포괄적인 추상화 지식은 기존 추상화 작업에서 언어 모델의 성능을 크게 향상시킬 수 있음을 실험적으로 보여주었다.
Stats
이 이벤트는 고양이가 쥐를 자신의 은신처로 쫓아간 것이다.
이 이벤트는 사람이 산과 숲으로 은둔하는 것이다.
이 이벤트는 고양이가 먹이를 자신의 은신처로 사냥한 것이다.
Quotes
"추상화 능력은 인간 지능의 필수적인 차원이지만, 언어 모델에서는 아직 충분히 탐구되지 않았다."
"ABSPYRAMID는 언어 모델의 추상화 능력을 종합적으로 평가하기 위한 통합된 추론 그래프이다."
"ABSPYRAMID는 이벤트의 세 가지 구성 요소(명사, 동사, 전체 이벤트)에 대한 추상 지식을 수집하여 언어 모델의 추상화 능력을 포괄적으로 평가한다."