MARPLE是一个基于模拟的家庭场景的基准测试,用于评估AI模型在长时间推理和事件重建方面的能力。它提供了程序生成的环境和代理行为,支持视觉、语言和音频等多模态证据。
基准测试采用"谁干的"式的推理问题,要求模型根据多模态证据推断导致环境变化的代理。实验结果表明,与人类相比,传统的蒙特卡罗模拟方法和语言模型在这些任务上表现不佳。人类参与者在使用较少证据的情况下就能做出更准确的推理。
此外,模拟方法在新环境中的泛化能力较差,而人类则能在没有特殊训练的情况下表现出色。多模态证据的融合也被证明对提高推理性能很有帮助。总的来说,MARPLE提出了一个具有挑战性的基准,有助于推动人机推理能力的发展。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Emil... às arxiv.org 10-04-2024
https://arxiv.org/pdf/2410.01926.pdfPerguntas Mais Profundas