本文提出了一個名為MUSES的通用AI系統,通過多模態智能協作實現了從自然語言到三維可控圖像的生成。MUSES包括三個關鍵智能代理:佈局管理器、模型工程師和圖像藝術家,協作完成從二維到三維的佈局規劃、三維模型獲取和校準以及三維到二維的圖像渲染。這一創新的多模態協作框架實現了對物體數量、方向、三維空間關係和相機視角的精確控制,在複雜三維場景的圖像生成中取得了顯著優於現有方法的性能。