核心概念
大型語言模型 (LLM) 可用於生成產品滿意度數據集,具有可擴展性和成本效益,但在情感分佈和潛在偏見方面存在局限性,需要進一步研究以完善。
摘要
研究論文摘要
文獻資訊: Hastings, J. D., Weitl-Harms, S., Doty, J., Myers, Z. L., & Thompson, W. (2024). Utilizing Large Language Models to Synthesize Product Desirability Datasets. arXiv preprint arXiv:2411.13485v1.
研究目標: 本研究旨在探討利用大型語言模型 (LLM) 生成產品滿意度數據集的可行性,特別是在真實數據有限的情況下,評估其作為可擴展且經濟高效的替代方案的潛力。
研究方法: 研究人員使用 gpt-4o-mini 模型,測試了三種生成合成產品滿意度數據集的方法:Word+Review、Review+Word 和 Supply-Word。每種方法都生成了 1000 條關於軟體產品的虛擬評論,並根據情感一致性、文本多樣性和數據生成成本進行評估。
主要發現: 結果顯示,所有三種方法都能生成與目標情感評分高度一致的數據集,Pearson 相關係數介於 0.93 到 0.97 之間。其中,Supply-Word 方法展現出最高的文本多樣性和 PDT 詞彙覆蓋率,但生成成本也相對較高。
主要結論: 儘管存在輕微的正面情感偏見,但在測試數據有限的情況下,LLM 生成的合成數據提供了顯著的優勢,包括可擴展性、成本效益和數據集生成靈活性。
研究意義: 本研究為產品滿意度分析提供了新的數據生成方法,有助於解決真實數據獲取成本高昂且耗時的問題,並促進數據驅動的產品開發。
研究限制與未來方向: 未來研究將集中於完善情感一致性技術、提高文本多樣性以及解決 LLM 中固有的偏見,以進一步提高合成產品滿意度數據集的品質和適用性。
統計資料
gpt-4o-mini 的 API 成本是 gpt-4o 的 6%。
Word+Review、Review+Word 和 Supply-Word 方法的 Pearson 相關係數分別為 0.93、0.96 和 0.97。
Supply-Word 方法生成的數據集具有最高的文本多樣性,但生成成本也最高。
使用 Word+Review 方法生成 100 萬條評論的預估成本約為 60 美元。
引述
"The PDT is recognized as a valuable qualitative tool for evaluating user experience, and satisfaction for products."
"This paper introduces novel research which investigates the synthesis of datasets for analyzing product desirability, specifically within the framework of the Product Desirability Toolkit (PDT), an area currently lacking in available datasets."
"Despite minor biases toward positive sentiments, in situations with limited test data, LLM-generated synthetic data offers significant advantages, including scalability, cost savings, and flexibility in dataset production."