本論文は、人工ニューラルネットワーク(ANN)が人間の概念を学習し、それらを個別のユニットに表現しているという一般的な見方を検討している。
まず、ANNが良好な予測性能を示すことは強い経験的証拠があるが、理論的保証は不足していることを指摘する。次に、ANNが人間の概念を学習するという主張については、転移学習の成功や概念活性化ベクトル(TCAV)の結果から一定の支持があるものの、敵対的サンプルの存在から、ANNは人間の概念だけでなく人間が使用しない概念も学習していることが示唆される。
最後に、ANNが学習した概念を個別のユニットに表現しているという主張については、活性化最大化やネットワーク解剖の手法では十分な証拠が得られないことを論じる。むしろ、ユニットの選択性と予測性能の関係から、概念の分散表現の方が適切であると結論付ける。
全体として、ANNが人間の概念を学習するが、それらを個別のユニットに表現しているわけではないことが示唆される。概念表現の理解には、概念の共活性化と機能的役割の両方を考慮する必要がある。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문