本研究では、オープンワールドにおけるエゴセントリックビデオからの新規アクションの発見に取り組んでいる。
まず、ノイズオラクルとしてCLIPを使ってビデオ内のオブジェクトをグラウンディングする。次に、常識知識ベースに基づいて、オブジェクトに対して可能な行動(動詞)を発見する。
最後に、発見した行動をビデオの視覚的特徴とグラウンディングすることで、未知のアクションを学習する。
これにより、限定的な教師信号でも、オープンワールドでのアクティビティ理解が可能となる。
実験では、GTEA Gaze、GTEA Gaze Plusデータセットでの性能を確認し、ゼロショット学習設定でも競争力のある結果を示している。
また、未知のアクションに対する一般化性も確認している。
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Sanjoy Kundu... : arxiv.org 05-06-2024
https://arxiv.org/pdf/2305.16602.pdfDaha Derin Sorular