Core Concepts
ALCQ와 같은 표현력 높은 기술 논리 언어에 대한 트랜스포머 기반 모델의 추론 능력을 체계적으로 조사하였다.
Abstract
이 연구는 ALCQ 기술 논리 언어를 기반으로 한 대규모 벤치마크 데이터셋 DELTAD를 제공한다. DELTAD는 추론 깊이와 언어적 복잡성의 두 가지 차원에서 증가한다.
이를 통해 감독 학습된 DeBERTa 기반 모델과 GPT-3.5, GPT-4와 같은 대규모 언어 모델의 추론 능력을 체계적으로 조사하였다. 결과는 DeBERTa 기반 모델이 추론 작업을 마스터할 수 있으며, GPT 모델도 소량의 샘플(9개)만 제공되어도 성능이 크게 향상될 수 있음을 보여준다.
또한 모델의 성능이 문장 길이에 영향을 받지 않으며, DeBERTa 기반 모델이 데이터셋의 어휘에 영향을 받지 않는다는 것을 보여준다. 마지막으로 이러한 기여를 실제 사용 사례 시나리오에 활용할 수 있음을 보여준다.
Stats
"Erin은 Dave를 먹는다."
"Fiona는 적어도 3명의 사람을 사랑한다. 그들은 스마트하거나 주황색이 아니거나 적어도 3명의 차가운 사람을 먹거나 누군가를 쫓는 사람이다."
"모든 사람들 중 털이 많은 사람을 존경하는 사람은 스마트하다."
"모든 스마트한 사람은 친절하지 않거나 털이 많지 않거나 누군가를 존경하는 사람만을 먹는다."
Quotes
"만약 누군가가 친절하지 않거나 털이 많지 않거나 누군가를 존경하고 그들만을 좋아하는 사람만을 먹는다면, 그들은 차가운 사람이나 친절한 사람을 사랑하는 사람을 사랑한다."
"만약 누군가가 적어도 3명의 사람을 사랑한다면, 그들은 털이 많은 사람을 존경한다."