核心概念
儘管神經語言模型(NLM)在區分特定結構的語法和非語法填充間隙依存關係方面取得了一定的成功,但它們依賴於輸入的表面特性,而不是共享的泛化能力,這突出了特定語言歸納偏差對語言習得建模的必要性。
研究目標
本研究旨在探討神經語言模型(NLM)是否能夠在僅接受包含填充間隙依存關係的單一結構的增強輸入後,將填充間隙依存關係的知識泛化到不同的結構。
研究方法
研究人員使用遞迴神經網路 (RNN) 來估計文本的驚訝度,並通過分析模型在包含和不包含填充詞和間隙的句子中的驚訝度,來評估模型是否學習了填充間隙依存關係。研究人員使用 Wilcox 等人 (2023) 提出的線性混合效應回歸模型來分析數據,並分別測試了模型在簡單句子和包含島嶼結構的句子中的表現。
研究人員進行了兩個實驗。在實驗一中,他們使用包含 clefting 結構的句子來增強 RNN 的訓練數據,並測試模型在其他三種包含填充間隙依存關係的結構(Wh-movement、topicalization 和 tough-movement)中的表現。在實驗二中,他們使用 topicalization 結構的句子來增強 RNN 的訓練數據,並測試模型在 topicalization 結構中的表現。
主要發現
預先訓練的 RNN 模型在區分某些結構(例如 Wh-movement、clefting 和 tough-movement)的語法和非語法填充間隙依存關係方面取得了一定的成功,但在 topicalization 結構中表現不佳。這表明模型的表現可能與特定結構在訓練數據中的出現頻率有關。
在接受 clefting 結構的句子訓練後,Cleft-RNN 模型在 clefting 和 Wh-movement 結構中表現出對島嶼約束的更好理解,但在 tough-movement 結構中表現下降。這表明接觸一種結構類型可能會導致 NLM 對另一種類型的知識下降,特別是當這兩種類型共享與依存關係不符的表面相似性時。
即使在接受 topicalization 結構的句子訓練後,Topic-RNN 模型仍然無法完全學習該結構中的填充間隙依存關係。
主要結論
研究結果表明,NLM 並沒有通過共享表示來學習填充間隙依存關係,而是嚴重依賴於與單個結構緊密匹配的輸入。此外,在某些情況下(例如 topicalization),NLM 似乎難以學習依存關係。這些發現強調了特定語言歸納偏差對於語言習得建模的重要性。
研究意義
本研究對於理解 NLM 如何學習句法結構以及它們是否可以作為人類語言學習者的良好代理具有重要意義。研究結果表明,NLM 可能需要額外的語言特定偏差才能更準確地模擬人類語言習得。
局限與未來研究方向
本研究的測試集相對較小,未來可以使用更大的、更多樣化的數據集來驗證研究結果。此外,未來的研究可以探索將語言特定偏差納入 NLM 的不同方法,以提高其學習填充間隙依存關係的能力。