Główne pojęcia
人間の脳活動パターンをfMRIデータから分析し、その情報を活用することで、従来の自己教師あり学習を超える性能を持つ機械視覚モデルを開発できる可能性がある。
Streszczenie
Brainformer: fMRI を介して人間の視覚脳機能を機械視覚モデルに模倣する
書誌情報: Nguyen, X.-B., Li, X., Sinha, P., Khan, S. U., & Luu, K. (2024). Brainformer: Mimic Human Visual Brain Functions to Machine Vision Models via fMRI. Neurocomputing. arXiv preprint arXiv:2312.00236v3.
研究目的: 本研究は、人間の視覚脳機能を模倣した機械視覚モデルを開発するために、機能的磁気共鳴画像法 (fMRI) データから得られる脳活動パターンを活用することを目的とする。
方法: 著者らは、Brainformerと呼ばれる新しいTransformerベースのフレームワークを提案する。このフレームワークは、fMRI信号から人間の知覚システムにおけるパターンを分析し、機械学習モデルの学習に利用する。具体的には、Multi-scale fMRI Transformerを用いてfMRI信号から脳活動パターンを抽出し、Brain fMRI Guidance Lossを用いて、fMRIデータから得られた脳活動パターンを深層ニューラルネットワークに模倣させる。
主な結果: 実験の結果、fMRI情報を活用することで、従来の自己教師あり学習手法と比較して、物体検出、インスタンスセグメンテーション、セマンティックセグメンテーション、脳応答予測などの様々な画像認識タスクにおいて、Brainformerが優れた性能を達成することが示された。
結論: 本研究は、人間の知覚からニューラルネットワークへの知識転移という、将来性のあるアプローチを提示するものである。fMRI情報を活用することで、機械視覚モデルは、様々な画像認識タスクにおいて、最先端の手法に匹敵する結果を達成することができる。
意義: 本研究は、脳活動データを用いた機械学習モデルの学習という新しい分野に貢献するものである。fMRIデータから得られる豊富な情報を活用することで、人間の視覚システムの理解を深め、より高性能な機械視覚モデルを開発することが期待される。
限界と今後の研究: 本研究では、比較的規模の小さいfMRIデータセットを用いており、今後、より大規模なデータセットを用いた評価が必要である。また、Brainformerのアーキテクチャや学習方法についても、更なる改善の余地がある。
Statystyki
Swin-S/Brainformerは、Swin-S/CLIPよりもbox/APで約1.7%、seg/APで約3.9%優れた性能を示した。
ConvNext-S/Brainformerは、ConvNext-S/CLIPよりもbox/APで約2.3%、seg/APで約3.2%優れた性能を示した。
Swin-S/BrainformerはSwin-S/CLIPよりもmIoUで1.48% (41.77対40.29) 高かった。
ConvNext-S/BrainformerはConvNext-S/CLIPよりもmIoUで1.65%優れていた。
Swin-S/Brainformerは、Swin-S/RandomとSwin-S/CLIPよりもそれぞれ約4.22%、3.38%優れた性能を示した。
ConvNext-S/Brainformerは、ConvNext-S/CLIPよりも約1.73%高いPCC 57.43%を達成した。
3Dボクセル埋め込みを使用すると、従来の位置埋め込みを採用したネットワークと比較して、物体検出で約+3.2% box/AP、インスタンスセグメンテーションで+2.2% seg/AP、セマンティックセグメンテーションで+1.2% mIoI、脳応答予測で+1.24%PCCの性能向上が見られた。
Brain fMRI Guidance Lossを用いたモデルは、用いない場合よりも優れた性能を示した。具体的には、物体検出で+2.4% box/AP、インスタンスセグメンテーションで+3.3% seg/AP、セマンティックセグメンテーションで+1.12% mIoU、脳応答予測で1.18%PCCの性能向上が見られた。
ウィンドウサイズを64から128に増やすと、物体検出でbox/APが2.8%減少し、インスタンスセグメンテーションでseg/APが2.4%減少し、セマンティックセグメンテーションでmIoUが1.12%減少し、脳応答予測でPCCが1.23%減少した。
ウィンドウサイズを一定に保ち、ストライドを32から64に増やすと、ストライドが大きくなるほどモデルが見逃す情報が増えるため、同様の結果が得られた。
被験者1人分のデータのみを使用した場合、ランダム初期化と比較して性能はあまり向上しなかった。
被験者数を増やすと、Brainformerの性能もそれに応じて向上した。
7人の被験者の訓練データでは、box/APで+2.6%、seg/APで+4.7%、mIoUで+3.77%、PCCで3.23%の性能向上が見られた。
提案されたfMRI符号化戦略は、既存の方法よりも明らかに優れており、box/APで+2.3%、seg/APで+4.9%、mIoUで+3.38%、PCCで+3.04%の改善を達成した。
PCCは(λcon = 0.3, λbfg = 0.7)の設定で最高のスコアを達成した。
box/AP、seg/AP、mIoUは、バランスの取れた設定(λcon = 0.5, λbfg = 0.5)を使用したときに最高の性能を達成した。
w = 128の場合、ストライドsを64から32に減らすと、1秒あたりの浮動小数点演算回数(FLOPs)が51.86Gから102.92Gへとほぼ倍増する一方で、すべての指標で性能が向上した。
同様に、s = 32の場合、wを128から64に減らすと、FLOPsは102.92Gから105.66Gへとわずかに増加するものの、すべての指標で大幅な性能向上が見られた。