Conceitos essenciais
최신 대형 언어 모델들은 서사 간 시스템 유추 추론에 어려움을 겪는다.
Resumo
이 논문은 서사 간 유추 추론 능력을 평가하기 위한 포괄적인 계산 프레임워크와 벤치마크(ARN)를 제안한다.
서사 요소(등장인물, 관계, 행동, 목표, 장소, 교훈)를 추출하고 이를 바탕으로 표면 매핑과 시스템 매핑을 형성한다.
매핑의 조합을 통해 멀/가까운 유추와 멀/가까운 비유추를 구분하여 4가지 유형의 데이터셋을 구축했다.
실험 결과, 최신 대형 언어 모델들은 가까운 유추는 어느 정도 잘 구분하지만 멀리 떨어진 유추에서는 어려움을 겪는다.
해결 예시를 제공하거나 단계적 추론을 유도하면 성능이 향상되지만, 여전히 인간 수준에는 미치지 못한다.
이는 서사 간 유추 추론이 언어 모델에게 새로운 도전과제임을 보여준다.
Estatísticas
서사 요소 추출 시 평균 4.55개의 행동, 2.44개의 목표, 2.59개의 등장인물, 1.71개의 관계, 3.90개의 장소를 찾았다.
전체 데이터셋의 정확도는 인간 수준의 96%에 비해 모델 평균 57.3%로 나타났다.
가까운 유추에서는 모델 평균 75.0%, 멀리 떨어진 유추에서는 39.6%의 정확도를 보였다.
Citações
"최신 대형 언어 모델들은 멀리 떨어진 유추를 구분하는 데 어려움을 겪는다."
"해결 예시를 제공하거나 단계적 추론을 유도하면 성능이 향상되지만, 여전히 인간 수준에는 미치지 못한다."