핵심 개념
Menschen generieren informative Fragen in Battleship durch sprachinformiertes Programm-Sampling.
통계
Unsere Modelle erreichen menschenähnliche Leistungen bei k = 5.
Die beste menschliche Frage erzielte EIG = 3,61.
LLMs generieren im Durchschnitt EIG = 0,65-0,66 bei k = 1.
인용구
"Menschen generieren informative Fragen in Battleship durch sprachinformiertes Programm-Sampling."