OneEncoder是一個用於漸進式對齊多模態的輕量級框架。它包括以下三個主要元素:
預訓練的模態特定編碼器:OneEncoder使用預訓練的ViT、BERT、Wav2Vec2和VideoMAE等模型來提取各個模態的特徵表示,並將這些編碼器的參數固定。
通用投影模塊(UP):這是一個由變換器層組成的編碼器,用於將不同模態投影到一個共享的潛在空間。在第一步中,UP模塊被訓練來對齊圖像和文本模態。
對齊層(AL):這是一個由多層感知機組成的輕量級模塊,用於將新模態(如音頻和視頻)投影到已對齊的模態空間。在第二步中,只訓練AL,而UP模塊的參數保持固定。
這種漸進式對齊方法可以有效地整合新模態,而無需重新訓練整個框架。與依賴大型對齊數據集的傳統方法相比,OneEncoder的輕量級設計使其能夠在缺乏大量對齊數據的情況下仍然表現出色。
在各種下游任務(如分類、查詢、語義和視覺問答)中,OneEncoder都優於依賴大型模態特定編碼器的經典方法。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Bilal Faye, ... um arxiv.org 09-18-2024
https://arxiv.org/pdf/2409.11059.pdfTiefere Fragen