本研究では、ビデオ内の行動情報から、オブジェクトの状態を推定する手法を提案している。
具体的には以下の3つのステップで行う:
提案手法は、従来のビジョン・言語モデルに比べて、オブジェクトの状態を29%以上高精度に認識できることを示した。
また、既存のデータセットでも良好な性能を示しており、行動情報からオブジェクトの状態を推定する手法の有効性が確認された。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Masatoshi Ta... kl. arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.01090.pdfDybere Forespørgsler