核心概念
従来の弱教師付き時間的行動定位(WTAL)手法では、完全な行動区間の特定が困難でしたが、マルチモーダル大規模言語モデル(MLLM)のセマンティック事前情報を活用することで、この問題を効果的に解決できることが示唆されています。
この論文は、マルチモーダル大規模言語モデル(MLLM)を用いて、従来の弱教師付き時間的行動定位(WTAL)手法の性能を向上させることを目的としています。
時間的行動定位(TAL)は、未編集の動画から関心のある行動インスタンスをローカライズすることを目的としています。完全教師付きTAL手法は優れたローカライズ結果を達成しますが、フレームレベルのアノテーションが必要となるため、コストと時間がかかります。そこで、動画レベルのラベルのみを必要とする弱教師付きTAL(WTAL)手法が注目されています。しかし、既存のWTAL手法は、不完全なローカライズと過剰なローカライズという2つの課題に直面しています。