本文介紹了PixelBytes Embedding,這是一種用於統一多模態表示學習的新方法。該方法能夠捕捉不同類型的輸入,如文本和像素化圖像,並將其整合到單一的、連貫的表示中,從而實現多模態序列生成。
作者受到了最新的序列模型(如Image Transformers、PixelCNN和Mamba-Bytes)的啟發,旨在解決整合不同數據類型的挑戰。研究探索了多種模型架構,包括循環神經網絡(RNN)、狀態空間模型(SSM)和基於注意力的模型,並重點關注雙向處理和創新的PxBy嵌入技術。
在一個專門的PixelBytes Pokémon數據集上進行的實驗表明,具有PxBy嵌入和卷積層的雙向序列模型能夠生成連貫的多模態序列。這項工作有助於推進集成AI模型的發展,這些模型能夠以統一的方式理解和生成多模態數據。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Fabien Furfa... о arxiv.org 09-25-2024
https://arxiv.org/pdf/2409.15512.pdfГлибші Запити