本論文では、動物の視点から捉えた自己運動と相互作用のデータセット「EgoPet」を提案する。EgoPetには84時間以上の動画が収録されており、犬、猫、鷲、亀など、様々な動物の日常的な行動が収録されている。
EgoPetを活用して3つの新しいベンチマークタスクを定義した。1つ目は視覚的相互作用予測(VIP)で、動物が他の主体や物体と相互作用する様子を検出・分類する。2つ目は移動予測(LP)で、動物の4秒先の軌跡を予測する。3つ目は視覚から固有感覚への変換予測(VPP)で、四足ロボットの地形認識を支援する。
実験の結果、EgoPetで事前学習したモデルが、他のデータセットで事前学習したモデルよりも、これらのタスクで優れた性能を示すことが分かった。これは、現在の大規模ビデオデータセットでは動物の行動を十分にカバーできていないことを示唆している。EgoPetは動物の行動理解と、動物に匹敵するAIシステムの開発に貢献できる重要なリソースである。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Amir Bar,Ary... at arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09991.pdfDeeper Inquiries