SUPER基準包含三個不同的問題集:
我們引入了各種評估指標,利用可用的金標準解決方案或近似值來評估任務成功和進度。我們發現頂尖的方法難以解決這些問題,最好的模型(GPT-4o)只能解決16.3%的端到端集和46.1%的情景。這說明了這項任務的挑戰性,並表明SUPER可以成為社區取得進步和衡量進度的有價值資源。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Ben Bogin, K... om arxiv.org 09-12-2024
https://arxiv.org/pdf/2409.07440.pdfDiepere vragen