核心概念
提出一種端到端的多模態大型語言模型,能夠從非侵入式的fMRI記錄中解碼參與者的口語文本。
摘要
本文提出了一種用於從腦部fMRI記錄中解碼口語文本的端到端多模態大型語言模型。該模型由兩個主要部分組成:
一個改進的雙分支Transformer編碼器:
採用了一個增強的嵌入層,使用並行的一維反卷積層(Inception模塊)來更好地捕捉fMRI信號的時間特徵。
在編碼器和解碼器中使用了簡單和雙向的注意力機制,以更好地探索fMRI表示的複雜性。
一個預訓練的大型語言模型(LLM)作為解碼器:
將訓練好的Transformer編碼器與一個凍結的LLM(Vicuna-7B)進行嵌入對齊,利用LLM的語言理解能力生成最終的文本。
在訓練過程中,還將對話者的文本作為指令輸入到LLM中,以模擬參與者在對話中的行為。
該模型在一個包含人機和人人對話的數據集上進行了評估,結果顯示其在各種文本相似度和語義指標上都優於現有的基準模型。這驗證了多模態LLM在從腦部記錄中解碼文本方面的能力,為未來在神經科學、健康和康復等領域的應用奠定了基礎。
統計資料
這個對話系統的核心是從參與者的fMRI記錄中解碼他們的口語文本。
數據集包含人機和人人對話的同步記錄,包括fMRI信號、對話文本轉錄和視覺刺激圖像。
每個對話持續60秒,共有594個樣本。
引述
"這項工作是旨在人工模擬人腦生成文本的方式的一部分。從fMRI記錄中解碼文本將為神經科學、健康和康復領域的未來發展奠定基礎。"
"與經典的基於字幕的方法相比,多模態LLM在從腦部記錄中解碼文本方面表現出了優越的能力。"