本研究では、眼球運動と注意の焦点化された性質に着目し、それらを自己教師あり学習の枠組みとして捉えることを提案している。具体的には、マスク付き画像モデリング(MIM)アプローチを生物学的な制約に合わせて検討している。
まず、マスキング手法の違いを調べた結果、周辺部をマスクする手法が生物学的により適合的であり、高い表現学習性能を示すことを明らかにした。この手法では、中心部の情報のみを用いて周辺部の情報を予測する必要があるため、物体表現の学習に有効であると考えられる。
次に、データ拡張の影響を調べた。周辺部マスクの場合、データ拡張が重要であることが分かった。一方、ランダムパッチマスクではデータ拡張の影響は小さかった。これは、周辺部マスクでは各物体について様々な予測課題に曝される必要があるためと考えられる。
さらに、物体領域と背景領域の予測を分離して学習させる実験を行った。その結果、物体領域の予測のみでも十分な表現学習が可能であることが示された。
理論的には、MIMによって潜在表現の相関が自然に低下することが分かった。これは、生物学的な表現の構造化に関する知見と整合的である。
以上より、眼球運動を通じた情報の予測と明らかにする課題は、生物学的な自己教師あり学習の有力なモデルとなる可能性が示された。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Pertanyaan yang Lebih Dalam