核心概念
VITA是一個強大的開放源碼多模態大型語言模型,集視頻、圖像、文本和音頻理解於一體,並具有先進的多模態人機交互體驗。
摘要
本文介紹了VITA,這是一個開放源碼的高性能多模態基礎模型,能夠同時支持英文和中文的視頻、圖像、文本和音頻輸入。VITA的開發包括以下三個主要步驟:
雙語指令微調語言模型:從Mixtral 8×7B開始,擴展其中文詞彙並進行雙語指令微調,使其在中英文理解和表達上都很出色。
多模態對齊和指令微調:通過大量高質量的多模態數據,將文本特徵空間與視頻、圖像和音頻進行對齊。同時引入狀態標記,使模型能夠自動識別不同類型的輸入查詢,為後續的多模態人機交互奠定基礎。
雙管道部署:在部署時,採用雙管道方案,一個模型負責生成對用戶查詢的回應,另一個模型實時監測環境音頻。當用戶打斷當前查詢時,監測模型會整合歷史上下文並回答最新的查詢。這實現了無喚醒詞交互和音頻打斷交互的功能。
VITA在多模態基礎能力方面表現出色,在各種單模態和多模態基準測試中均取得了優異成績。同時,VITA在自然多模態人機交互方面也取得了突破性進展。我們希望VITA能夠為開源社區探索多模態理解和交互的無縫融合提供基石。
統計資料
VITA在中文語音識別測試集Wenetspeech上的字錯誤率為12.15%,在英文語音識別測試集Librispeech上的詞錯誤率為8.14%。
引述
"VITA是一個強大的開放源碼多模態大型語言模型,集視頻、圖像、文本和音頻理解於一體,並具有先進的多模態人機交互體驗。"
"VITA通過引入狀態標記,能夠自動識別不同類型的輸入查詢,為後續的多模態人機交互奠定基礎。"
"VITA採用雙管道部署方案,實現了無喚醒詞交互和音頻打斷交互的功能。"