本論文は、手話生成(Sign Language Production: SLP)のための新しいデータ駆動型の表現を提案している。従来の手話生成アプローチは、音声言語文章から手話の連続的な姿勢系列を直接生成するか、手話の単語レベルの表記(グロス)を介して生成するものが多かった。しかし、これらのアプローチは言語注釈の不足や精度の低さといった課題があった。
本論文の提案手法では、まず手話データから短い動作のコードブックを学習する。このコードブックは手話の基本的な単位を表すものと考えられる。次に、音声言語文章をこのコードブックのトークン列に変換する翻訳モデルを学習する。この中間表現は直接姿勢系列に変換できるため、言語注釈なしでも手話生成が可能となる。
さらに、言語注釈が利用可能な場合は、対照学習を用いてコードブックの表現を改善できることを示している。また、生成された手話トークン列を滑らかに繋ぐ手法も提案している。
実験では、PHOENIX14TおよびmDGSデータセットで最先端の性能を達成している。特に、mDGSデータセットでは、従来手法に比べて最大72%のBLEU-1スコア向上を示している。定量的・定性的な評価から、提案手法の有効性が確認された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Harry Walsh,... at arxiv.org 04-18-2024
https://arxiv.org/pdf/2404.11499.pdfDeeper Inquiries