核心概念
先前的研究使用簡單的語言模型部分地模擬了閱讀的可預測性。本研究使用基於 transformer 的 GPT-2 模型,並在特定領域和方言上進行微調,以更好地捕捉閱讀過程中的認知機制。
摘要
本研究旨在擴展先前的工作,首先使用基於 transformer 的架構,其次是訓練語料庫。具體來說,我們使用在西班牙語上訓練的 GPT-2 模型,並在兩個自有語料庫上進行微調,一個是與評估文本相同的文學領域,另一個是與參與者使用的同一西班牙語變體(里奧普拉塔西班牙語)。
結果顯示,GPT-2 模型生成的可預測性指標在解釋眼動數據方面優於之前使用的模型,如 N-gram 和 AWD-LSTM。這表明基於 transformer 的架構能夠更好地捕捉語言中的信息。此外,微調模型的效果略優於原始模型,但由於微調語料庫規模較小,效果提升有限。
未來我們計劃增加里奧普拉塔西班牙語語料庫的規模,以深入分析這種微調方法。同時,我們也計劃進一步探索使用這類模型結果來改善對閱讀認知過程的理解。
統計資料
眼動數據中,每個參與者平均有 1503 ± 618 個樣本,每篇文章有 6765 ± 3226 個樣本,每個單詞平均有 20 ± 35 次觀察。總共有 54,121 個樣本和 2588 個唯一單詞。