核心概念
大型語言模型生成的詞彙定義在準確性和原創性方面已可與傳統詞典媲美,尤其在處理低頻詞彙方面展現出優勢。
研究背景
本研究探討大型語言模型(LLM)生成的詞彙定義與傳統詞典定義之間的一致性。隨著自然語言處理技術的進步,詞嵌入和生成模型如ChatGPT的出現,挑戰了傳統詞典作為詞彙定義仲裁者的地位。
研究問題
本研究旨在探討以下問題:
傳統詞典定義與詞嵌入和生成模型的語義表徵之間的一致性如何?
隨著技術的進步,LLM生成的定義的改進速度如何?
LLM生成的定義在多大程度上是對傳統詞典定義的重複或抄襲?
研究方法
研究人員選取了超過2,500個詞彙,收集了它們在WordNet、Merriam-Webster和Dictionary.com三個傳統詞典中的定義,以及FastText和GloVe兩個詞嵌入集合中的向量表示。同時,研究人員使用兩種不同提示,從ChatGPT 3.5和4.0兩個版本中獲取每個詞彙的定義。通過向量距離/相似度、編輯距離和鄰域相關性等技術,比較不同來源定義之間的差異。
研究結果
生成定義的表面形式與傳統詞典定義存在顯著差異。
ChatGPT生成的詞彙定義具有高度準確性,與傳統詞典相當。
基於ChatGPT的嵌入定義即使在低頻詞彙上也能保持其準確性,遠優於GloVE和FastText詞嵌入。
研究結論
LLM生成的詞彙定義在準確性和原創性方面已可與傳統詞典媲美。
SBERT嵌入定義可能比傳統方法更能準確地表示低頻詞彙的詞嵌入。
研究展望
未來研究可以進一步探討如何驗證多義詞或不同用法定義的完整性。
評估模型在其他語言或翻譯中的保真度。
統計資料
研究人員選取了超過2,500個詞彙。
研究中使用了ChatGPT 3.5和4.0兩個版本。
研究人員收集了WordNet、Merriam-Webster和Dictionary.com三個傳統詞典的定義。
研究中使用了GloVE和FastText兩個詞嵌入集合。
在50個距離最大的Merriam-Webster和GPT4定義對中,GPT4識別出48個,而GPT3識別出34個。