本文提出了一種用於從腦部fMRI記錄中解碼口語文本的端到端多模態大型語言模型。該模型由兩個主要部分組成:
一個改進的雙分支Transformer編碼器:
一個預訓練的大型語言模型(LLM)作為解碼器:
該模型在一個包含人機和人人對話的數據集上進行了評估,結果顯示其在各種文本相似度和語義指標上都優於現有的基準模型。這驗證了多模態LLM在從腦部記錄中解碼文本方面的能力,為未來在神經科學、健康和康復等領域的應用奠定了基礎。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Youssef Hmam... às arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19710.pdfPerguntas Mais Profundas