核心概念
Transformer 模型能夠透過「理解式學習」(grokking)習得對知識進行隱性推理的能力,但其泛化能力因推理類型的不同而有所差異。
Wang, B., Yue, X., Su, Y., & Sun, H. (2024). Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization. Advances in Neural Information Processing Systems, 38.
本研究旨在探討 Transformer 模型是否能夠習得對參數化知識進行隱性推理的能力,並分析其泛化能力在不同推理類型上的差異。