本論文は、大規模な画像-テキストペアデータを活用して開発された視覚言語モデル(CLIP)の高品質な特徴を効率的に転移学習し、限られたデータでも優れた連続手話認識性能を実現する手法を提案している。
具体的には以下の取り組みを行っている:
実験の結果、提案手法は既存の手法と比べて大幅な精度向上を達成し、計算コストも低く抑えられることを示している。また、可視化結果から、提案手法が手や顔といった手話表現に重要な領域に注目できることが確認された。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Lianyu Hu,To... kl. arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08226.pdfDybere Forespørgsler