核心概念
本研究探討了幾種代表性大型語言模型在文獻推薦任務中的表現和潛在偏見。結果表明,雖然一些大型模型的推薦在簡單人工篩選後可以算是勉強可接受,但整體而言,這些模型在特定文獻推薦任務中的準確性普遍較低。此外,這些模型傾向推薦及時、協作性強,以及擴展或深化該領域的文獻。在學者推薦任務中,沒有證據表明大型語言模型會加劇與性別、種族或國家發展水平相關的不平等。
摘要
本研究探討了幾種代表性大型語言模型(LLM)在文獻推薦任務中的表現和潛在偏見。
研究方法:
- 選擇了ChatGPT、Claude和GLM三種LLM進行實驗。
- 設計了兩種任務:關鍵文獻推薦和關鍵學者推薦。
- 通過OpenAlex API獲取文獻的引用數、作者信息、主題信息,以及學者的引用數、機構和國家等數據。
- 計算文獻的跨學科性和顛覆性指標。
- 評估推薦結果的真實性,並比較LLM推薦與實際情況的差異。
研究結果:
- LLM推薦的整體錯誤率在40-50%之間,其中ChatGPT4表現最佳,GLM最差。
- LLM推薦的文獻平均引用數低於實際情況,但在高引用區域的分布相似。
- LLM推薦偏好近期發表的文獻,以及保守的發展性文獻,而不是高顛覆性的文獻。
- LLM推薦的學者中,來自發展中國家的比例略高於實際情況,可能反映了LLM在訓練中減少偏見的努力。
總的來說,LLM在文獻推薦任務中的準確性有限,存在一些偏好,如偏好時效性、協作性和發展性,而不是顛覆性。這突出了在學術應用中需要持續改進和考慮倫理問題的重要性。
統計資料
LLM推薦的文獻平均引用數低於實際情況。
LLM推薦的文獻主要由小型團隊(少於10人)完成,與實際情況相似。
LLM推薦的文獻大多發表於最近20年,顯著偏好近期發表的文獻。
LLM推薦的文獻顛覆性平均水平低於實際情況,更偏好保守的發展性文獻。
LLM推薦的文獻跨學科性與實際情況相似,集中在5個以內的子領域。
引述
"LLMs do not have an extra preference for highly cited documents when making recommendations; they involve documents with a range of citation counts from low to high."
"LLMs favor documents with recent publication dates and those that develop existing research."
"In some fields, LLMs are more inclined to recommend results produced by large teams."