Core Concepts
提案手法は、大規模な3Dサイン言語データセットを使用して、テキストから3Dサイン言語アバターを生成する拡散モデルを訓練する。解剖学的に適切なグラフニューラルネットワークを用いることで、高品質で現実的なサイン言語動作を生成できる。
Abstract
本研究では、サイン言語生成(SLP)の課題に取り組む。SLPでは、テキストから対応するサイン言語の動作を生成する必要がある。従来のSLP手法は2Dデータや中間表現(グロス)に依存しており、現実的な動作を生成するのが困難だった。
提案手法では、大規模な3Dサイン言語データセットを使用して、拡散モデルを訓練する。解剖学的に適切なグラフニューラルネットワークを用いることで、手の動作や表情などの高周波成分を正確にモデル化できる。さらに、強力なテキストエンコーダを使うことで、任意のテキストに対して一般化できる。
定量的・定性的な実験の結果、提案手法は従来手法を大幅に上回る性能を示した。ユーザースタディでも、生成されたサイン言語の現実性と可読性が高く評価された。本研究は、聴覚障害者とそうでない人々の間のコミュニケーションギャップを埋める重要な一歩となる。
Stats
提案手法は、従来手法と比べて、体、左手、右手の平均頂点誤差がそれぞれ46.42 mm、16.17 mm、15.23 mmと大幅に低い。
提案手法のFID(Fréchet Inception Distance)スコアは1.56と低く、生成された動作が現実的であることを示している。
提案手法のBLEU-4スコアは13.12と高く、生成された動作がテキストの意味を良く保持していることがわかる。