本研究は、欠損モダリティが自我中心的ビデオの理解に及ぼす影響を調査しています。実世界のアプリケーションでは、プライバシーの懸念、効率性の要求、ハードウェアの故障などの要因により、モダリティが不完全になることがよくあります。
研究では、特にトランスフォーマーベースのモデルにおける欠損モダリティの影響を探っています。新しい概念である「欠損モダリティトークン(MMT)」を導入し、モダリティが欠落している場合でもパフォーマンスを維持する方法を提案しています。この手法は、Ego4D、Epic-Kitchens、Epic-Soundsデータセットで効果的であることが示されています。
提案手法は、元の約30%の性能低下を約10%に抑えることができます。広範な実験を通して、MMTがさまざまな訓練シナリオに適応可能であり、現在の手法と比べて欠損モダリティを処理する上で優れていることを実証しています。
本研究は、包括的な分析と革新的なアプローチを提供し、現実世界の設定でより強靭なマルチモーダルシステムを実現する道を開いています。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Merey Ramaza... at arxiv.org 04-18-2024
https://arxiv.org/pdf/2401.11470.pdfDeeper Inquiries