Core Concepts
「MENTOR」は、ゼロショット学習とフューショット学習の間に位置する新しい学習戦略を実現し、多言語シーンテキスト検出を可能にします。
Abstract
テキスト検出はビジョンベースのモバイルロボットで頻繁に使用される。
新たな問題設定に基づいて、未知の言語領域内のテキスト領域を特定する方法を提案。
「DG」は動的かつ学習可能なモジュールであり、各言語の特徴を抽出する。
「TF」モジュールは、見えるおよび見えないテキスト領域を検出し、入力画像からピクセル単位の言語特徴を抽出する。
「LM」モジュールでは、「DG」から得られた言語固有の特徴と「TF」から得られたピクセル単位のシーンテキスト特徴を比較して未知言語のテキスト領域を識別します。
Stats
本文中に重要な数字やメトリクスは含まれていません。
Quotes
"We ask for a generalizable multilingual text detection framework to detect and identify both seen and unseen language regions inside scene images without the requirement of collecting supervised training data for unseen languages as well as model re-training."
"Our main contributions are summarized as: We proposed a new problem setting for generalized multi-language scene text detection."