Core Concepts
視覚障害者向けにマンガをアクセス可能にするための自動トランスクリプションの重要性。
Abstract
マンガは視覚障害者にとってアクセスが困難であることが課題。
Magiモデルはパネル、テキスト、キャラクターを検出し、ダイアログのトランスクリプトを生成。
ダイアライゼーションの課題を解決するために統合モデルMagiを提案。
テスト結果では、Magiモデルが既存手法よりも優れた性能を示す。
キャラクター・クラスタリングや話者関連付けなど複数のタスクで高い精度を達成。
Stats
"1つのページに何人かのキャラが描かれている場合、それらは同じキャラではない(否定的)"
"AとBがモデルの潜在空間で最も近い隣接キャラである場合、AとBは同じキャラである(肯定的)"
"各テキストブロックを最も近いキャラに一致させる"
Quotes
"私たちの方法はパネルを読書順序に並べ替える改善されたアルゴリズムを提案します。"
"私たちの方法はパネル順序予測を示しています。"