แนวคิดหลัก
Menschen generieren informative Fragen in Battleship durch sprachinformiertes Programm-Sampling.
สถิติ
Unsere Modelle erreichen menschenähnliche Leistungen bei k = 5.
Die beste menschliche Frage erzielte EIG = 3,61.
LLMs generieren im Durchschnitt EIG = 0,65-0,66 bei k = 1.
คำพูด
"Menschen generieren informative Fragen in Battleship durch sprachinformiertes Programm-Sampling."