Die Studie untersucht das Verhalten von großen Sprachmodellen (LLMs), wenn sie mit unvernünftigen Mathematikproblemen konfrontiert werden, und erforscht ihr Potenzial, diese Probleme anzugehen.
Zunächst wird der Unreasonable Math Problem (UMP) Benchmark entwickelt, um die Fehlererkennung von LLMs zu untersuchen. Die Experimente zeigen, dass LLMs in der Lage sind, unvernünftige Fehler zu erkennen, aber immer noch Schwierigkeiten haben, nicht-halluzinatorische Inhalte zu generieren.
Um ihre Fähigkeiten zur Fehlererkennung und -korrektur zu verbessern, wird ein strategischer Prompt-Vorlagenkatalog namens Critical Calculation and Conclusion (CCC) entwickelt. Mit CCC können LLMs Mathematikaufgaben besser selbst evaluieren und unvernünftige Fehler erkennen, was sie in praktischen Anwendungsszenarien zuverlässiger und sicherer macht.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jingyuan Ma,... at arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19346.pdfDeeper Inquiries