本研究では、ビデオ内の行動情報から、オブジェクトの状態を推定する手法を提案している。
具体的には以下の3つのステップで行う:
提案手法は、従来のビジョン・言語モデルに比べて、オブジェクトの状態を29%以上高精度に認識できることを示した。
また、既存のデータセットでも良好な性能を示しており、行動情報からオブジェクトの状態を推定する手法の有効性が確認された。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies