本論文は、オープンボキャブラリーアクション認識(OVAR)における新しい課題、すなわちクラステキストのノイズに着目している。従来のOVAR手法は、クラステキストが完全に正確であることを前提としていたが、実際のユーザー入力にはスペルミスやタイプミスが含まれる可能性がある。このノイズにより、OVAR手法の精度が大幅に低下することが示された。
そこで本論文では、DENOISER(Denoising Encoder for Open-vocabulary Action Recognition)と呼ばれる新しい枠組みを提案している。DEMOISERは、生成的部分と識別的部分から構成される。生成的部分では、ノイズの入ったクラステキストを修正するために、視覚情報と言語情報を組み合わせて最適な候補を選択する。識別的部分では、修正されたクラステキストを用いてアクション認識を行う。これらの部分を交互に最適化することで、クラステキストの修正とアクション認識の精度が相互に向上していく。
実験の結果、DEMOISERはノイズの影響を大幅に軽減し、従来手法を大きく上回る性能を示した。特に、ノイズレベルが高い場合でも、クリーンなクラステキストを用いた場合とほぼ同等の精度を達成できることが確認された。また、各コンポーネントの詳細な分析を通して、DEMOISERの有効性が示された。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Haozhe Cheng... klo arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.14890.pdfSyvällisempiä Kysymyksiä