本論文では、マルチモーダル特徴融合のための新しいアプローチ「LEGO融合」を提案している。
まず、入力特徴を関係グラフに変換する。これにより、特徴間の関係を表現できる。次に、グラフ累乗を使って、多段階の関係を捉える。これにより、単純な一次関係だけでなく、複雑な相互作用も表現できる。
さらに、学習可能なグラフ融合演算子を導入する。この演算子は、異なるグラフ累乗の寄与を動的に調整することで、特徴融合をタスクに最適化できる。
提案手法は、ビデオ異常検知タスクで評価された。従来の特徴融合手法と比較して、提案手法は優れた性能を示した。これは、関係グラフに基づく融合が、特徴間の複雑な相互作用を効果的にモデル化できるためである。
また、提案手法は数学的に多項式と関連付けられ、特徴間の相互作用を解釈可能な形で表現できる。このことから、提案手法は単なる「ブラックボックス」ではなく、融合プロセスの理解を深めることができる。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Dexuan Ding,... في arxiv.org 10-03-2024
https://arxiv.org/pdf/2410.01506.pdfاستفسارات أعمق