近年の表現学習の進歩は、マルチモーダルアライメントの重要性を示しています。本研究では、Training-free Optimization of Codebook(TOC)メソッドを導入し、Hierarchical Dual Cross-modal Information Disentanglement(H-DCID)アプローチを拡張して、クロスモーダル詳細情報をキャプチャします。実験結果は、TOCが4つのタスクでDCIDに平均1.70%の改善をもたらし、H-DCIDが平均3.64%でDCIDを上回ることを示しています。さらに、TOCとH-DCIDの組み合わせは、DCIDよりも4.43%優れたパフォーマンスを発揮しました。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Hai Huang,Ya... a las arxiv.org 03-11-2024
https://arxiv.org/pdf/2403.05168.pdfConsultas más profundas