Core Concepts
言語モデルの設計知識を活用し、視覚的および言語的に整合性のあるレイアウトを生成する。
Abstract
本研究では、ポスターレイアウトの生成において、言語モデルの設計知識を活用する手法「PosterLlama」を提案している。
- レイアウト要素をHTML形式で表現することで、言語モデルの豊富な設計知識を活用できるようにした。
- 視覚情報と言語情報を統合するための2段階の学習プロセスを導入し、視覚的な理解を向上させた。
- 限られたデータ量に対応するため、深度情報に基づく画像拡張手法を開発した。
- 広範な条件下でのレイアウト生成を可能にし、既存手法を上回る性能を示した。
- ポスター広告の生成パイプラインを提案し、実用性を示した。
Stats
生成されたレイアウトは、実際のレイアウトとほぼ同等の品質を示した。
提案手法は、既存手法と比較して、整列度(ali)、重複度(ove)、下地との調和(und_l、und_s)の指標で優れた性能を示した。
可読性(rea)と遮蔽度(occ)の指標では、一部の既存手法に劣る結果となった。これは、生成レイアウトが実際のレイアウトと高い重複を示すことに起因すると分析された。