核心概念
Menschen generieren informative Fragen in Battleship durch sprachinformiertes Programm-Sampling.
统计
Unsere Modelle erreichen menschenähnliche Leistungen bei k = 5.
Die beste menschliche Frage erzielte EIG = 3,61.
LLMs generieren im Durchschnitt EIG = 0,65-0,66 bei k = 1.
引用
"Menschen generieren informative Fragen in Battleship durch sprachinformiertes Programm-Sampling."