10% improvement over existing models in both easy and hard variants.
ResNet-50 delivers comparable results to more complex models with just one-fifth of the parameters.
Another 1% improvement due to new OCR annotations for the dataset.
Quotes
"Central to our approach is a Domain-Adapted ResNet-50 based visual encoder, fine-tuned to the comics domain in a self-supervised manner using SimCLR."
"We introduce a novel Multimodal-LLM based architecture specifically designed for the comics text-cloze task, outperforming existing models by 10% in both easy and hard variants of the task."
この研究は将来的なコミック言語モデリング分野へ革新的貢献する可能性が非常に高いです。提案されたMultimodal Large Language Model (Multimodal-LLM) アーキテクチャ「ComicVT5」では漫画内部や文章内容間で深層学習処理や相互作用方法等幅広く採用しております。
また、「Text-Cloze Task in Comics」というタスク設定自体も他分野から取り込まれつつある重要事例です。
今後更多様化・洗礼化した教師付き学修資料等含む豊富情報源から得られる知見活用等次第では未開拓領域開拓・進展促進等面でも大きく期待されます。
以上よう考察能力強化・表現形式改善・評価指標追加等工夫次第では本分野未知領域突入推進役割担当者存在感増大期待感じさせます。