이 연구는 공개 및 독점 대규모 언어 모델의 일관성과 추론 능력을 평가합니다. Boolq 데이터셋을 사용하여 모델에 질문을 제시하고 생성된 답변과 설명을 분석합니다. 일관성은 동일한 질문에 대한 반복적인 응답을 비교하여 평가하고, 추론 능력은 생성된 설명을 데이터셋의 정답 설명과 비교하여 평가합니다. 실험 결과, 독점 모델이 공개 모델보다 전반적으로 우수한 성능을 보였지만, 기본적인 일반 지식 질문에서도 90% 이상의 일관성과 추론 능력을 달성하지 못했습니다. 이는 현재 언어 모델의 추론 능력 문제를 강조합니다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yash Saxena,... lúc arxiv.org 04-26-2024
https://arxiv.org/pdf/2404.16478.pdfYêu cầu sâu hơn