Core Concepts
fMRIから動的自然視覚を再構築するための新しいモデルMind-Animatorを提案する。このモデルは、意味、構造、運動の各特徴を fMRIから分離して抽出し、それらを統合して高解像度の動画を生成する。
Abstract
本研究は、fMRIから動的自然視覚を再構築する新しいモデルMind-Animatorを提案している。従来の研究では、意味、構造、運動の各特徴を同時に捉えることが困難であったが、本モデルではこれらの特徴を分離して抽出し、統合することで高品質な動画の再構築に成功した。
具体的には以下の3つのステップからなる:
fMRIから意味、構造、運動の各特徴を抽出する
意味特徴: fMRIをCLIPの視覚言語表現空間にマッピングすることで抽出
構造特徴: VQ-VAEで抽出した最初のフレームのトークンを使用
運動特徴: 時空間アテンションを用いたTransformerベースのモデルで抽出
抽出した各特徴を統合して動画を生成する
意味、構造、運動特徴をインフレートしたStable Diffusionモデルに入力して、各フレームを生成
再構築された動画が本当にfMRIから得られたものであることを検証する
順列検定を行い、再構築動画の時間順序がfMRIに由来していることを確認
脳領域ごとの重要度マップを可視化し、神経科学的な解釈可能性を示す
本モデルは、従来の手法を大きく上回る性能を示し、fMRIから動的自然視覚を高品質に再構築できることを実証した。
Stats
各フレームの位置、形状、色などの低レベル構造情報は初期フレームから抽出される
物体の動きなどの運動情報は時空間アテンションモジュールから抽出される
高レベルの意味情報は、fMRIをCLIPの視覚言語表現空間にマッピングすることで抽出される
Quotes
"fMRIから動的自然視覚を再構築することは、計算神経科学と人工知能の分野で長年の目標である。"
"本研究では、意味、構造、運動の各特徴を fMRIから分離して抽出し、それらを統合することで高品質な動画の再構築に成功した。"
"再構築された動画の時間順序がfMRIに由来していることを、順列検定によって確認した。"