核心概念
大規模言語モデルを活用することで、手話動画を言語的に表現し、高精度な手話翻訳を実現できる。
要約
本論文は、大規模言語モデル(LLM)を用いて手話動画を効果的に翻訳する新しい手法「SignLLM」を提案している。
まず、VQ-Signモジュールを用いて手話動画を離散的な文字レベルの手話トークンに変換する。次に、Codebook Reconstruction and Alignment (CRA)モジュールを使って、これらの文字レベルトークンを単語レベルの手話トークンに再構成する。これにより、手話表現に言語的な階層構造を持たせ、LLMが理解しやすい形式に変換する。
最後に、変換された手話表現をLLMに入力し、所望の言語への翻訳を行う。
実験の結果、提案手法は既存の手話翻訳手法を大きく上回る性能を示した。
統計
手話動画を文字レベルのトークンに変換することで、言語的な離散性を持たせることができる。
文字レベルトークンを単語レベルトークンに再構成することで、言語的な階層構造を持たせることができる。
手話表現とテキストトークンの分布を近づけることで、LLMの理解を促進できる。
引用
"LLMsは、大規模な多言語テキストコーパスを学習することで、豊富な意味理解と強力な言語能力を持つ。"
"手話動画を言語的な表現に変換することで、LLMの強力な翻訳能力を活用できる。"