核心概念
膨大な心理学実験データセット「Psych-101」で学習した基盤モデル「Centaur」は、人間の認知能力を模倣し、多様なタスクにおいて人間に近いパフォーマンスと脳活動を示す、汎用人工知能の可能性を示唆する。
書誌情報: Binz, M., Akata, E., Bethge, M., ... & Schulz, E. (2024). Centaur: a foundation model of human cognition. arXiv preprint arXiv:2410.20268.
研究目的: 本研究では、人間の認知能力を包括的に模倣できる汎用人工知能モデルの開発を目指し、大規模言語モデルを心理学実験データセットで学習させた際の性能と脳活動への整合性を検証した。
手法: 研究チームは、160種類の心理学実験データ(被験者数6万人以上、選択データ1000万件以上)を含む大規模データセット「Psych-101」を構築し、このデータセットを用いて、事前学習済みの大規模言語モデル「Llama 3.1 70B」をファインチューニングした。さらに、モデルの汎化性能を評価するため、異なるカバーストーリー、問題構造、新規ドメインを用いた実験データセットを用いて、モデルの予測精度を検証した。また、人間の脳活動データとモデルの内部表現の整合性を評価するため、fMRIデータを用いたデコーディング解析を行った。
主要な結果: ファインチューニングされたモデル「Centaur」は、Psych-101に含まれない実験データに対しても高い予測精度を示し、人間の認知能力の様々な側面を捉えていることが示唆された。さらに、「Centaur」の内部表現は、人間の脳活動データとの相関が認められ、特に意思決定や言語処理に関わる脳領域との関連性が高いことが示された。
結論: 本研究は、大規模言語モデルを心理学実験データセットで学習させることで、人間の認知能力を模倣する汎用人工知能モデルを開発できる可能性を示した。また、「Centaur」の内部表現と人間の脳活動データとの整合性は、人間の認知メカニズムの理解に貢献する可能性を示唆している。
意義: 本研究は、人工知能研究における汎用人工知能開発の進展に貢献するだけでなく、人間の認知メカニズムの解明にも繋がる可能性を秘めている。
限界と今後の研究: 現状の「Centaur」は、心理学実験のデータセットに基づいており、現実世界における複雑な状況における人間の行動を完全に模倣するには至っていない。今後は、より多様なデータセットを用いた学習や、人間の認知能力の更なる側面を模倣できるモデルの開発が期待される。
統計
心理学実験データセット「Psych-101」は、160種類の心理学実験データを含み、被験者数6万人以上、選択データ1000万件以上、テキストトークン数2億5359万7411件から構成されている。
「Centaur」は、「Psych-101」を用いてファインチューニングされた結果、平均予測精度が0.14向上した(「Centaur」のpseudo-R2 = 0.50、ファインチューニング前の「Llama」のpseudo-R2 = 0.36)。
ドメイン特化型の認知モデルと比較して、「Centaur」はほぼすべての実験において優れた予測精度を示し、平均予測精度は0.18向上した(「Centaur」のpseudo-R2 = 0.50、認知モデルのpseudo-R2 = 0.32)。