核心概念
雖然大型語言模型 (LLM) 能生成語法結構複雜的短篇故事,但在新穎性、驚奇度和多樣性等創造力指標上,仍遜於一般人類作者。
書目資訊: Ismayilzada, M., Stevenson, C., van der Plas, L. (2024). Evaluating Creative Short Story Generation in Humans and Large Language Models. arXiv preprint arXiv:2411.02316v1.
研究目標: 本研究旨在探討大型語言模型 (LLM) 在創意短篇故事生成方面的能力,並與一般人類作者進行比較。
研究方法: 研究人員設計了一個五句創意短篇故事生成任務,要求參與者根據三個提示詞創作故事。他們收集了來自人類參與者和四種不同 LLM(GPT-4、Gemini-1.5、Claude-3.5 和 Llama-3.1-405B)生成的故事,並使用多項指標評估故事的創造力,包括新穎性、驚奇度、多樣性和複雜性。
主要發現: 研究結果顯示,LLM 生成的故事在詞彙和語法結構上往往比人類更複雜,但在新穎性、驚奇度和多樣性方面,明顯遜於人類作者。人類作者的故事更具原創性、出乎意料的元素,並且在主題和寫作風格上表現出更大的多樣性。
主要結論: 儘管 LLM 在生成語法正確且流暢的故事方面取得了進展,但它們在創造力方面仍落後於人類。這項研究表明,LLM 對創意的理解與人類不同,它們傾向於將複雜性等同於創造力,而忽略了新穎性和驚奇度等關鍵因素。
研究意義: 本研究為評估 LLM 的創造力提供了一種自動化、數據驅動的方法,並揭示了 LLM 在創意寫作方面存在的局限性。這些發現有助於指導未來開發更具創造力的 LLM 的研究方向。
研究限制和未來研究方向: 本研究的樣本量相對較小,未來研究可以擴大樣本量,並納入更多不同類型的 LLM 和人類作者。此外,未來研究還可以探索其他創造力指標,以及影響 LLM 創造力的因素,例如訓練數據和模型架構。
統計資料
人類參與者在 n-gram 多樣性指標上表現優於所有 LLM 模型,顯示出更高的詞彙多樣性。
在語義多樣性方面,人類參與者的得分也顯著高於 LLM 模型 (p < 0.0000001),這從反同質化得分和主題獨特性得分可以看出。
人類參與者在故事的新穎性和驚奇度方面也優於 LLM 模型,p 值分別為 < 0.0000001 和 < 0.001。