核心概念
大規模な画像-テキストペアデータを活用して開発された視覚言語モデル(CLIP)の高品質な特徴を効率的に転移学習し、限られたデータでも優れた連続手話認識性能を実現する。
要約
本論文は、大規模な画像-テキストペアデータを活用して開発された視覚言語モデル(CLIP)の高品質な特徴を効率的に転移学習し、限られたデータでも優れた連続手話認識性能を実現する手法を提案している。
具体的には以下の取り組みを行っている:
- CLIP モデルの特徴抽出部分を固定し、その上に軽量な学習モジュールを追加することで、CLIP の一般化能力を保ちつつ、手話動画の特徴を効率的に学習する。
- 注意機構と前置詞埋め込みを導入し、CLIP の一般的な視覚特徴に手話固有の知識を注入する。
- マルチスケール特徴の統合と時系列注意機構を導入し、手話動作の空間的・時間的特徴を効果的にモデル化する。
実験の結果、提案手法は既存の手法と比べて大幅な精度向上を達成し、計算コストも低く抑えられることを示している。また、可視化結果から、提案手法が手や顔といった手話表現に重要な領域に注目できることが確認された。
統計
提案手法は既存の手法と比べて、PHOENIX14データセットで19.4%の誤り率を達成し、大幅な精度向上を実現した。
提案手法の計算コストは、単純な微調整手法と比べて1.15倍と効率的である。
引用
"大規模な画像-テキストペアデータを活用して開発された視覚言語モデル(CLIP)の高品質な特徴を効率的に転移学習し、限られたデータでも優れた連続手話認識性能を実現する。"
"提案手法は既存の手法と比べて大幅な精度向上を達成し、計算コストも低く抑えられる。"