Die Forschung untersucht die Bewertung der Argumentationsfähigkeit von LLMs in Multi-Hop-Fragen durch Wissensbearbeitung. Es wird ein neuer Bewertungsmaßstab vorgestellt, der potenzielle Risiken der Datenkontamination aufzeigt und die Argumentationskette von LLMs bewertet. Die Ergebnisse zeigen, dass LLMs eine hohe Leistung aufweisen, die jedoch aufgrund eines beträchtlichen Anteils falscher Argumentationsketten relativiert wird.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jian Wu,Liny... at arxiv.org 03-05-2024
https://arxiv.org/pdf/2402.11924.pdfDeeper Inquiries