MARPLE是一个基于模拟的家庭场景的基准测试,用于评估AI模型在长时间推理和事件重建方面的能力。它提供了程序生成的环境和代理行为,支持视觉、语言和音频等多模态证据。
基准测试采用"谁干的"式的推理问题,要求模型根据多模态证据推断导致环境变化的代理。实验结果表明,与人类相比,传统的蒙特卡罗模拟方法和语言模型在这些任务上表现不佳。人类参与者在使用较少证据的情况下就能做出更准确的推理。
此外,模拟方法在新环境中的泛化能力较差,而人类则能在没有特殊训练的情况下表现出色。多模态证据的融合也被证明对提高推理性能很有帮助。总的来说,MARPLE提出了一个具有挑战性的基准,有助于推动人机推理能力的发展。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Pertanyaan yang Lebih Dalam