이 연구는 대규모 언어 모델(LLM)이 수학 문제 해결에 있어서 비합리적인 문제에 직면할 때의 행동을 연구하고, 이러한 문제를 해결할 수 있는 잠재력을 탐구한다.
먼저, 비합리적 수학 문제(UMP) 벤치마크를 구축하여 LLM의 오류 탐지 능력을 조사했다. 실험 결과, LLM은 비합리적 오류를 탐지할 수 있지만 비환각적 콘텐츠를 생성하는 데 실패했다.
이러한 능력을 향상시키기 위해 Critical Calculation and Conclusion(CCC) 프롬프트 템플릿을 설계했다. CCC를 통해 LLM은 수학 문제의 비합리성을 더 잘 자체 평가하고 탐지할 수 있어, 실제 적용 시나리오에서 더 신뢰할 수 있고 안전해진다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jingyuan Ma,... at arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19346.pdfDeeper Inquiries