Concetti Chiave
本論文は、手話生成の問題を2つのサブタスク(Gloss Selection とGloss Reordering)に分解する新しいアプローチ「Select and Reorder」を提案する。これにより、語彙選択と語順変換を個別に最適化することができ、資源制限下でも高精度な手話生成を実現する。
Sintesi
本論文は、手話生成の問題を2つのサブタスクに分解する新しいアプローチ「Select and Reorder」を提案している。
まず、Gloss Selection (GS)では、話し言語の単語に対応するグロスを選択する。これには、大規模な話し言語モデルを活用して話し言語とグロスの間の疑似的な対応付けを行う。
次に、Gloss Reordering (GR)では、選択したグロスを手話の語順に並び替える。統計的手法と深層学習手法の2つのアプローチを提案し、比較している。
この2つのサブタスクを組み合わせることで、資源制限下でも高精度な手話生成を実現している。実験の結果、提案手法は従来手法に比べて、BLEU-1スコアで大幅な向上を示した。
また、提案手法は非自己回帰型のデコーダを使うことで、高速な推論が可能となっている。
Statistiche
手話とその対応する話し言語の間には35%から33%の語彙重複がある。
提案手法のGSモデルは、mDGSデータセットでBLEU-1スコア42.91を達成した。
提案手法のS&Rモデルは、PHOENIX14TデータセットでのテストセットでBLEU-1スコア60.13を達成し、従来手法に比べて12.65%の改善を示した。
提案手法のS&Rモデルは、mDGSデータセットでのテストセットでBLEU-1スコア43.06を達成し、従来手法に比べて37.88%の改善を示した。
Citazioni
"Sign languages, often categorised as low-resource languages, face significant challenges in achieving accurate translation due to the scarcity of parallel annotated datasets."
"By first formatting the gloss tokens with lemmatization we find that datasets such as Meine DGS Annotated (mDGS) and RWTH-PHOENIX-Weather-2014T (PHOENIX14T) have a lexical overlap of 35% and 33%, respectively."
"Our method leverages large spoken language models and the substantial lexical overlap between source spoken languages and target sign languages to establish an initial alignment."