この記事は、ビジョンと言語の間の計算的および推論的なギャップを埋めるために、専門家の混合を利用した新しいアプローチであるMoE-VRDを紹介しています。このアプローチは、視覚関係検出における行動認識要件に対処し、単一の巨大なニューラルネットワークよりも優れたパフォーマンスを提供します。論文では、異なる専門家が特定の視覚関係学習やオブジェクトタグ付けに特化していることが強調されています。また、条件付き計算とニューラルネットワーク容量の拡張が可能であり、他の最先端技術よりも優れたパフォーマンスを実証しています。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Ala Shaabana... о arxiv.org 03-08-2024
https://arxiv.org/pdf/2403.03994.pdfГлибші Запити