本文提出了一個新的基準 GemBench,系統地評估視覺語言機器人操作的泛化能力。同時,作者提出了一種新的方法 3D-LOTUS++,結合了基礎模型的泛化能力和 3D 策略的動作執行能力,在 GemBench 上取得了最佳性能。