Core Concepts
提案手法E2STRは、コンテキスト情報を活用することで、様々な状況に迅速に適応できる高性能なシーンテキスト認識モデルを実現する。
Abstract
本研究では、シーンテキスト認識(STR)の課題に取り組むため、E2STRと呼ばれる新しいアプローチを提案している。E2STRは、2段階の学習プロセスを経て、状況に応じた自己進化型のSTRモデルを実現する。
第1段階では、基本的なSTR能力を習得する。第2段階では、コンテキスト情報を活用する「In-Context Training」を行い、様々な状況に迅速に適応できる能力を獲得する。具体的には、シーンテキストサンプルを分割・変形して文脈豊かなシーケンスを生成し、モデルに学習させる。
推論時には、入力画像と最も視覚的に類似したサンプルをIn-Contextプロンプトとして選択し、それらの情報を活用して認識を行う。
実験の結果、E2STRは従来手法を大きく上回る性能を発揮し、特に未知の状況下でも優れた適応力を示すことが確認された。また、少数の難易度の高いサンプルを追加するだけで大幅な性能向上が得られるなど、高い柔軟性も備えている。
Stats
シーンテキスト認識の性能は、従来手法と比べて平均で0.8%向上した。
未知の状況下では、従来の最先端手法を1.2%上回る性能を発揮した。
Quotes
"E2STRは、コンテキスト情報を活用することで、様々な状況に迅速に適応できる高性能なシーンテキスト認識モデルを実現する。"
"E2STRは、従来手法を大きく上回る性能を発揮し、特に未知の状況下でも優れた適応力を示す。"
"E2STRは、少数の難易度の高いサンプルを追加するだけで大幅な性能向上が得られるなど、高い柔軟性も備えている。"