核心概念
テキストから動作への変換モデルの予測出力が、同義語の置換などの軽微な入力変化に対して不安定であるという問題を解決するため、安定した注意機構と予測を実現するフレームワークを提案する。
要約
本研究では、テキストから動作への変換モデルの予測出力が、同義語の置換などの軽微な入力変化に対して不安定であるという問題に取り組む。
- 予測出力の不安定性は、テキストエンコーダのアテンション機構の不安定性に起因することを明らかにした。
- 安定したアテンション機構と予測を実現するための「安定テキストから動作への変換フレームワーク(SATO)」を提案した。
- SAToは以下の3つのモジュールから構成される:
- 攪乱モジュール: テキストに対する同義語置換などの攪乱を生成する
- 安定アテンションモジュール: アテンションの安定性を高める
- 教師モデルモジュール: 元のモデルの高精度を維持しつつ、安定性を向上させる
- 提案手法は、HumanML3Dおよび KIT-MLデータセットにおいて、既存手法と比較して大幅な安定性の向上を示した。
- 人間評価実験の結果からも、提案手法が同義語置換などの攪乱に対して頑健であることが確認された。
統計
同義語置換後の入力テキストに対して、既存手法のFIDPは大幅に悪化するのに対し、提案手法SAToのFIDPは大幅に改善された。
HumanML3Dデータセットでは、T2M-GPTのFIDPが1.754から提案手法SATo(T2M-GPT)の0.155に、KIT-MLデータセットでは2.756から0.581に改善された。
同様に、FIDDについても大幅な改善が見られた。
引用
"テキストから動作への変換モデルの予測出力が、同義語の置換などの軽微な入力変化に対して不安定であるという問題に取り組む。"
"安定したアテンション機構と予測を実現するための「安定テキストから動作への変換フレームワーク(SATO)」を提案した。"
"提案手法は、HumanML3Dおよび KIT-MLデータセットにおいて、既存手法と比較して大幅な安定性の向上を示した。"