マルチモーダル生成AIは、LLMとディフュージョンモデルの2つの主要な技術によって大きな進展を遂げている。LLMは多様なモダリティの理解を可能にし、ディフュージョンモデルは優れた生成能力を発揮する。両者の長所を活かした統一モデルの構築が重要な課題となっている。
テキストの説明に基づいて、同期した音声と動画を生成することが可能になる。