Conceitos essenciais
Menschen generieren informative Fragen in Battleship durch sprachinformiertes Programm-Sampling.
Estatísticas
Unsere Modelle erreichen menschenähnliche Leistungen bei k = 5.
Die beste menschliche Frage erzielte EIG = 3,61.
LLMs generieren im Durchschnitt EIG = 0,65-0,66 bei k = 1.
Citações
"Menschen generieren informative Fragen in Battleship durch sprachinformiertes Programm-Sampling."