本稿では、大規模なアメリカ手話データセットを用いて、テキストから高品質な手話ビデオを生成する新しい手法、SignDiffを提案する。
本論文は、手話生成の問題を2つのサブタスク(Gloss Selection とGloss Reordering)に分解する新しいアプローチ「Select and Reorder」を提案する。これにより、語彙選択と語順変換を個別に最適化することができ、資源制限下でも高精度な手話生成を実現する。
本論文は、手話生成のための新しいデータ駆動型の表現を提案する。この表現は、手話の連続的な動作を離散的なトークン列に変換することで、高コストな言語注釈なしに手話生成を行うことができる。