核心概念
本文提出了一個名為MUSES的通用AI系統,通過多模態智能協作實現了從自然語言到三維可控圖像的生成。MUSES包括三個關鍵智能代理:佈局管理器、模型工程師和圖像藝術家,協作完成從二維到三維的佈局規劃、三維模型獲取和校準以及三維到二維的圖像渲染。這一創新的多模態協作框架實現了對物體數量、方向、三維空間關係和相機視角的精確控制,在複雜三維場景的圖像生成中取得了顯著優於現有方法的性能。
摘要
本文提出了一個名為MUSES的通用AI系統,用於從自然語言生成三維可控圖像。MUSES包括三個關鍵智能代理:
佈局管理器:
首先使用大型語言模型(如Llama3)通過上下文學習生成二維佈局。
然後通過基於思維鏈的推理將二維佈局提升到三維空間,確定物體深度、方向和相機視角。
模型工程師:
模型檢索器採用決策樹方法,優先從自建的三維模型庫中檢索,不足時再進行在線搜索和文本到三維合成。
模型校準器使用微調的CLIP模型識別物體面向相機的視角,並在Blender中校準物體方向。
圖像藝術家:
根據三維佈局和校準的三維模型,在Blender中組裝三維場景,並渲染出深度圖和Canny邊緣圖等三維到二維的條件圖像。
最後使用ControlNet等技術生成最終的三維可控圖像。
此外,作者還構建了一個新的基準數據集T2I-3DisBench,包含50個詳細的三維場景描述,用於更全面地評估三維可控圖像生成能力。實驗結果表明,MUSES在T2I-CompBench和T2I-3DisBench上均顯著優於現有的開源和商業API模型。
統計資料
本文提出的MUSES系統可以精確控制圖像中物體的數量、方向、三維空間關係和相機視角。
在T2I-CompBench基準測試中,MUSES在物體屬性綁定、物體關係和數量等指標上均取得了最佳成績。
在作者新建的T2I-3DisBench基準測試中,MUSES在自動評估和用戶評估中均顯著優於現有的開源和商業API模型。
引述
"本文提出了一個名為MUSES的通用AI系統,通過多模態智能協作實現了從自然語言到三維可控圖像的生成。"
"MUSES包括三個關鍵智能代理:佈局管理器、模型工程師和圖像藝術家,協作完成從二維到三維的佈局規劃、三維模型獲取和校準以及三維到二維的圖像渲染。"
"實驗結果表明,MUSES在T2I-CompBench和T2I-3DisBench上均顯著優於現有的開源和商業API模型。"