核心概念
本文探討了遞迴神經網路和 Transformer 語言模型在學習機率性正規語言方面的能力,發現正規語言模型的秩和預期字串長度是影響其可學習性的重要因素。
摘要
從學習機率性正規語言的角度探討哪些語言易於進行語言建模?
Borenstein, N., Svete, A., Chan, R. S. M., Valvoda, J., Nowak, F., Augenstein, I., Chodroff, E., & Cotterell, R. (2024). What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages. arXiv preprint arXiv:2406.04289v4.
本研究旨在探討神經語言模型 (LM) 在實際應用中能夠學習哪些類別的機率性正規語言,特別是遞迴神經網路 (RNN) 和 Transformer 模型。