ピクセルベース言語モデルは、特に多言語処理において有望な代替手段として登場しましたが、その言語理解能力は従来のサブワードベースモデルに比べてまだ劣っており、視覚情報と意味情報の統合という課題が残されています。