Conceitos Básicos
OpenOmni 框架通過整合語音、視覺和語言處理技術,為構建和評估多模態對話代理提供了一個開源解決方案,旨在解決現有系統在延遲、準確性、成本和數據隱私方面的挑戰。
這篇研究論文介紹了 OpenOmni,一個用於構建面向未來的多模態對話代理的協作式開源工具。作者指出,雖然多模態對話代理提供了自然且類似人類的互動,但目前缺乏支持協作開發和基準測試的全面端到端解決方案。
研究背景
大型語言模型(LLM)在理解用戶意圖和遵循指令方面表現出非凡的能力,但僅限於文本的人機交互(HCI)通常是不夠的。OpenAI 的 GPT-4o 和 Google 的 Gemini 等專有系統展示了音頻、視頻和文本的出色集成,響應時間為 200-250 毫秒,但在平衡延遲、準確性、成本和數據隱私方面仍然存在挑戰。
OpenOmni 框架
為了更好地理解和量化這些問題,作者開發了 OpenOmni,這是一個開源的端到端管道基準測試工具,它集成了語音轉文本、情感檢測、檢索增強生成、大型語言模型等先進技術,以及集成定制模型的能力。OpenOmni 支持本地和雲部署,確保數據隱私並支持延遲和準確性基準測試。這個靈活的框架允許研究人員定制管道,專注於真正的瓶頸並促進快速的原型設計開發。
系統設計
OpenOmni 系統分為五個模塊:客戶端、API、存儲、用戶界面和代理。客戶端模塊負責收集音頻和視頻數據,並播放音頻。存儲模塊管理音頻、視頻數據和元數據。API 模塊處理數據管理和用戶身份驗證。代理模塊包含所有與代理相關的子模塊,允許在不改變架構的情況下部署在合適的計算節點上。
應用場景
OpenOmni 可以在不同的應用領域進行調整,例如老年護理、個人助理等。作者展示了兩個應用場景:美國總統辯論和協助視障人士。在美國總統辯論場景中,OpenOmni 被用於評估不同配置下的管道性能。在協助視障人士場景中,OpenOmni 被用於回答視障人士提出的問題,例如定位物體、室內導航和詢問周圍環境。
結論
OpenOmni 框架可以通過促進新數據集的收集和管理、集成各種對話代理方法以及生成自動延遲基準測試,為研究界帶來顯著的益處。其註釋界面有助於準確性性能審查,使 OpenOmni 可用於合適的應用場景,並促進多模態對話代理的進一步發展。
Estatísticas
GPT-4o 的響應時間在 200-250 毫秒之間。
使用 GPT-4o vision 模型的配置平均延遲為 45 秒,其中 GPT-4o vision 模型佔用了 31 秒。
最快的配置是 GPT35_ETE,平均約 15 秒,其中大部分時間都花費在文本轉語音部分,因為生成的內容相當長且全面。
最慢的配置是 HF_ETE,大約需要 189 秒,其中 LLM 模型推理步驟花費的時間最長。
QuantizationLLM_ETE 平均需要 60 秒,其中 LLM 模型推理平均需要 28 秒,而情感檢測模型平均需要 10 秒左右。