แนวคิดหลัก
Bewertung von Large Language Models (LLMs) durch den chinesischen dynamischen QA-Benchmark.
สถิติ
"GPT-4 erreicht fast oder über 65, 70 und 80 in F1-Recall für schnell ändernde, langsam ändernde und nie ändernde Fragen."
"GPT-4 übertrifft Deepseek-67B-Chat auf langsam ändernde und nie ändernde Fragen."
"ChatGPT und GPT-4 haben oft niedrigere Antwortraten als 100%."
คำพูด
"Wir glauben, dass unser konstruierter CDQA und die daraus gewonnenen Erkenntnisse wertvolle Ressourcen und Anleitungen für nachfolgende Forschungen zu chinesischen LLMs bieten werden."