Core Concepts
CorrNet+は、手話の表現に重要な手と顔の動きを効果的にモデル化することで、手話認識と翻訳の精度を大幅に向上させる。
Abstract
本論文は、手話認識と翻訳のための新しい空間時間相関ネットワーク CorrNet+を提案する。手話は主に手の動作、表情、頭の動きなどの非手動的要素によって表現される。しかし、従来の手話理解手法は各フレームを独立に処理しており、フレーム間の相互作用を考慮していなかった。
CorrNet+は以下の3つの主要コンポーネントから構成される:
相関モジュール: 隣接フレーム間の空間時間相関を計算し、人体の軌跡を捉える。従来手法に比べ計算量を大幅に削減した。
識別モジュール: 重要な空間領域を動的に強調し、不要な領域を抑制する。
時間注意モジュール: 各フレームの重要度を動的に評価し、キーフレームを強調する。
CorrNet+は、3つのCSLR ベンチマークと2つのSLTベンチマークで最新の精度を達成した。特に、高コストな姿勢推定ネットワークや事前抽出された特徴マップを使う従来手法を大きく上回った。CorrNetと比較しても、計算コストを半減しつつ精度を大幅に向上させた。
Stats
手話認識の精度(WER)が、従来手法に比べ2.2%~2.8%向上した。
手話翻訳の精度(BLEU@4)が、従来手法に比べ1.5~2.0ポイント向上した。