本文介紹了VITA,這是一個開放源碼的高性能多模態基礎模型,能夠同時支持英文和中文的視頻、圖像、文本和音頻輸入。VITA的開發包括以下三個主要步驟:
雙語指令微調語言模型:從Mixtral 8×7B開始,擴展其中文詞彙並進行雙語指令微調,使其在中英文理解和表達上都很出色。
多模態對齊和指令微調:通過大量高質量的多模態數據,將文本特徵空間與視頻、圖像和音頻進行對齊。同時引入狀態標記,使模型能夠自動識別不同類型的輸入查詢,為後續的多模態人機交互奠定基礎。
雙管道部署:在部署時,採用雙管道方案,一個模型負責生成對用戶查詢的回應,另一個模型實時監測環境音頻。當用戶打斷當前查詢時,監測模型會整合歷史上下文並回答最新的查詢。這實現了無喚醒詞交互和音頻打斷交互的功能。
VITA在多模態基礎能力方面表現出色,在各種單模態和多模態基準測試中均取得了優異成績。同時,VITA在自然多模態人機交互方面也取得了突破性進展。我們希望VITA能夠為開源社區探索多模態理解和交互的無縫融合提供基石。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Chaoyou Fu, ... alle arxiv.org 09-11-2024
https://arxiv.org/pdf/2408.05211.pdfDomande più approfondite