本論文は、マルチモーダルLLMにおける視覚理解と生成の間の矛盾を解決する手法を提案している。
まず、従来のマルチモーダルLLMでは、入力画像を視覚トークンに変換し、LLMに入力することで視覚理解を行い、一方で同じ視覚トークンを用いて画像生成を行うが、この際に視覚理解と生成の目的が対立するという問題がある。
そこで本手法では、入力画像を抽象的な「モーフトークン」に変換し、これをLLMの視覚プロンプトとして用いる。一方で、LLMの出力として得られる「後処理モーフトークン」は視覚的に完全なものとなり、これを用いて画像生成を行う。
このように、前処理と後処理のモーフトークンを分離することで、視覚理解と生成の目的を両立させることができる。さらに、3段階の学習戦略を提案し、モーフトークンの自己符号化を行うことで、両タスクの性能を向上させている。
実験の結果、提案手法は従来のマルチモーダルLLMを大きく上回る視覚理解と生成の性能を示し、さらに画像編集やマルチモーダルのコンテキスト学習などの高度な能力も発揮することが確認された。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문