核心概念
不同神經網路架構在學習正規語言辨識時表現不同,其中遞迴神經網路和長短期記憶網路通常優於變換器模型,而輔助訓練目標(如語言建模)的效果並不一致。
Butoi, A., Khalighinejad, G., Svete, A., Valvoda, J., Cotterell, R., & DuSell, B. (2024). Training Neural Networks as Recognizers of Formal Languages. arXiv:2411.07107v1 [cs.CL].
本研究旨在探討如何將神經網路訓練為正規語言的辨識器,並比較不同神經網路架構(簡單遞迴神經網路、長短期記憶網路和因果遮罩變換器)的學習效果,以及輔助訓練目標(語言建模和下一個符號預測)的影響。