提出了一個名為GraphRevisedIE的輕量級框架,能夠有效地嵌入視覺文本和佈局特徵,並利用圖修訂和圖卷積來豐富多模態嵌入,以應對視覺豐富文件中的語義歧義。
OMG-LLaVA是一個新穎而優雅的框架,結合了強大的像素級視覺理解能力和推理能力。它可以接受各種視覺和文本提示,實現靈活的用戶交互。
PixelBytes是一種新穎的統一多模態表示學習方法,能夠捕捉不同類型的輸入,並生成協調一致的文本和圖像序列。
VisScience 是一個全面的基準測試,用於評估多模態大型語言模型在數學、物理和化學等科學領域的推理能力。
Oryx是一個統一的多模態架構,能夠靈活高效地處理不同尺度和長度的視覺輸入,實現圖像、視頻和三維場景的時空理解。
本文提出了一種自動化的方程式編碼方法,以增強PROSE基礎模型對偏微分方程的時間序列預測能力。該方法消除了手動排序和簡化偏微分方程的需要,從而大幅提高了預測精度。此外,本文還包括一個基於濾波器的模塊,用於精煉PROSE學習到的支配系統,進一步提高了預測的準確性和穩定性。
OmniGen是一個新的擴散模型,能夠在單一框架內處理各種圖像生成任務,包括文本到圖像、圖像編輯、受主題驅動的生成和視覺條件生成等。與現有的擴散模型不同,OmniGen無需額外的模塊即可處理多樣的控制條件,大大簡化了工作流程。
本研究探討ImageBind生成有意義的多模態嵌入以描述線上汽車零件列表的能力。我們提出了一個簡單的嵌入融合工作流程,旨在捕捉圖像/文本對的重疊信息,最終將帖子的語義組合成一個聯合嵌入。
MusicLIME是一種針對多模態音樂理解模型的特徵重要性解釋方法,能夠揭示音頻和歌詞特徵如何交互作用並影響預測結果,提供更全面的模型決策過程理解。
整合運動、音頻和外觀特徵可以提高第一人稱動作識別在不同場景和位置的泛化能力。音頻和運動特徵相較於外觀特徵更能抵抗領域轉移,是實現強大泛化的關鍵。