Основные понятия
モデルの複雑さと性能向上を実現するために、専門家の混合アプローチが有効であることを示す。
Аннотация
この記事は、ビジョンと言語の間の計算的および推論的なギャップを埋めるために、専門家の混合を利用した新しいアプローチであるMoE-VRDを紹介しています。このアプローチは、視覚関係検出における行動認識要件に対処し、単一の巨大なニューラルネットワークよりも優れたパフォーマンスを提供します。論文では、異なる専門家が特定の視覚関係学習やオブジェクトタグ付けに特化していることが強調されています。また、条件付き計算とニューラルネットワーク容量の拡張が可能であり、他の最先端技術よりも優れたパフォーマンスを実証しています。
Статистика
VidVRD-II[15]は29.37 ± 0.40のmAPを達成
MoE-VRD(N = 1)はImageNet-VidVRD Datasetで29.49 ± 0.32のmAPを達成
VidOR DatasetではVidVRD-II[15]が8.65 ± 0.11のmAPを達成
MoE-VRD(K = 2)はVidOR Datasetで9.44 ± 0.21のmAPを達成
Цитаты
"MoE-VRDは異なる入力タイプに対して別々にトレーニングされた専門家が存在することから生じる異質性によって堅牢性が向上します。"
"MoE-VRDはほぼすべての最先端手法よりも優れたパフォーマンスを発揮しました。"
"K=2つまり2つ以上の専門家が選択された場合、MoE結果が最良です。"