本研究では、オープンワールドにおけるエゴセントリックビデオからの新規アクションの発見に取り組んでいる。
まず、ノイズオラクルとしてCLIPを使ってビデオ内のオブジェクトをグラウンディングする。次に、常識知識ベースに基づいて、オブジェクトに対して可能な行動(動詞)を発見する。
最後に、発見した行動をビデオの視覚的特徴とグラウンディングすることで、未知のアクションを学習する。
これにより、限定的な教師信号でも、オープンワールドでのアクティビティ理解が可能となる。
実験では、GTEA Gaze、GTEA Gaze Plusデータセットでの性能を確認し、ゼロショット学習設定でも競争力のある結果を示している。
また、未知のアクションに対する一般化性も確認している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問