Core Concepts
CLIP4STRは、CLIP画像エンコーダと言語エンコーダを活用し、視覚的特徴と言語的意味の相互作用を利用することで、高精度なシーンテキスト認識を実現する。
Abstract
CLIP4STRは、CLIP画像エンコーダと言語エンコーダを活用した2つのエンコーダ-デコーダブランチから構成される。
視覚ブランチは、視覚的特徴に基づいて初期予測を行う。
クロスモーダルブランチは、視覚的特徴と言語的意味の差異を補正し、予測を改善する。
推論時には、両ブランチの能力を最大限に活用するための予測-改善デコーディングスキームを採用する。
CLIP4STRは、モデルサイズ、事前学習データ、訓練データを拡大することで、11のベンチマークで最先端の性能を達成する。また、CLIPをシーンテキスト認識に適応させるための包括的な実験的研究も行われている。
Stats
視覚的特徴と言語的意味の差異を補正することで、予測精度が改善される。
大規模な事前学習データを活用することで、高い汎化性能が得られる。
複雑な文字配列(回転、曲がり、ぼやけ、遮蔽)に対しても頑健な認識性能を発揮する。
Quotes
"CLIP can robustly identify regular (horizontal) and irregular (rotated, curved, blurred, or occluded) text in images."
"CLIP4STR consists of two encoder-decoder branches: the visual branch and the cross-modal branch."
"To fully leverage the capabilities of both branches, we design a dual predict-and-refine decoding scheme for inference."