Core Concepts
MIO是一個新型的多模態基礎模型,能夠以端到端、自回歸的方式理解和生成文本、圖像、語音和視頻。
Abstract
本文介紹了MIO,這是一個新型的多模態基礎模型。MIO能夠以端到端、自回歸的方式理解和生成文本、圖像、語音和視頻。
MIO的訓練過程包括四個階段:
- 對齊預訓練:將非文本模態的數據表示與文本空間對齊。
- 交錯預訓練:引入圖文交錯的數據模式,以獲得更豐富的上下文語義。
- 語音增強預訓練:針對語音模態進行特別的訓練,提升語音理解和生成能力。
- 綜合監督微調:在16個任務和34個數據集上進行全面的監督微調。
實驗結果表明,MIO在圖像理解、語音理解和生成、視頻理解等任務上都表現出色,與之前的雙模態基準和其他任意輸入輸出多模態模型相比,MIO具有競爭力。此外,MIO還展現了一些新興能力,如交錯的視頻-文本生成、視覺思維鏈推理等。
Stats
在MS-COCO圖像描述任務上,MIO-Instruct的CIDEr得分為120.4,與最高分SEED-LLaMA-I相當。
在VQAv2視覺問答任務上,MIO-Instruct的準確率為65.5%,優於所有基準模型。
在LibriSpeech語音識別任務上,MIO-Instruct的語音錯誤率為4.2%,優於AnyGPT的8.5%。
在MSVDQA視頻問答任務上,MIO-Instruct的準確率為42.6%,優於所有基準模型。
Quotes
"MIO是一個新型的多模態基礎模型,能夠以端到端、自回歸的方式理解和生成文本、圖像、語音和視頻。"
"MIO的訓練過程包括四個階段:對齊預訓練、交錯預訓練、語音增強預訓練和綜合監督微調。"
"實驗結果表明,MIO在多個任務上都表現出色,與之前的基準模型相比具有競爭力。此外,MIO還展現了一些新興能力,如交錯的視頻-文本生成、視覺思維鏈推理等。"