Keskeiset käsitteet
Menschen generieren informative Fragen in Battleship durch sprachinformiertes Programm-Sampling.
Tilastot
Unsere Modelle erreichen menschenähnliche Leistungen bei k = 5.
Die beste menschliche Frage erzielte EIG = 3,61.
LLMs generieren im Durchschnitt EIG = 0,65-0,66 bei k = 1.
Lainaukset
"Menschen generieren informative Fragen in Battleship durch sprachinformiertes Programm-Sampling."