Core Concepts
TCNetは、軌跡と相関領域からの連続した手話認識を効果的に行うハイブリッドネットワークです。
Abstract
Abstract:
CSLRの主要な課題は、長期間の空間的相互作用を効率的に捉えること。
TCNetは、TrajectoriesとCorrelated regionsから時空間情報を効果的にモデル化するハイブリッドネットワークである。
トラジェクトリーモジュールは、フレームを連続した視覚トークンから構成される整列された軌跡に変換する。
相関モジュールは、不要なフレーム領域をフィルタリングし、動的なキー値トークンを割り当てる。
Introduction:
CSLRは、手話者が行う連続したジェスチャーのシーケンスを文章に変換するタスク。
伝統的には、CSLRはビデオから空間パターンを抽出し、LSTMなどの手法で時間関係を考慮してきた。
Method:
TCNetはTrajectoryおよびCorrelationモジュールで構成されており、特徴抽出能力が向上している。
バックボーンとしてResNet-18が使用されており、他のバックボーンでも性能が向上している。
Experiments:
PHOENIX14やPHOENIX14-Tなど4つの公開データセットで実験が行われており、TCNetが最先端の性能を達成している。
評価メトリックとしてWER(単語エラーレート)が使用されている。
Stats
我々のTCNetは以前の最先端よりもPHOENIX14では1.5%、PHOENIX14-Tでは1.0%の単語エラーレート改善を達成しています。