文獻資訊: Reinpold, L. M., Schieseck, M., Wagner, L. P., Gehlhoff, F., & Fay, A. (2024). Exploring LLMs for Verifying Technical System Specifications Against Requirements. arXiv preprint, arXiv:2411.11582v1.
研究目標: 本研究旨在探討大型語言模型 (LLM) 是否能夠像傳統基於規則的系統一樣,有效地判斷給定的系統規格是否滿足一系列需求。
研究方法: 研究人員以智慧電網領域為背景,設計了一系列實驗,將 LLM 的評估結果與基於 SysML 模型和 OCL 限制的正式規則系統進行比較。實驗中使用了不同複雜度的系統規格、不同數量的需求和不同的提示策略,並評估了 GPT-4o、GPT-3.5-turbo、Gemini-1.5 和 Claude 3.5 Sonnet 等四種 LLM 的效能。
主要發現: 實驗結果顯示,GPT-4o 和 Claude 3.5 Sonnet 等先進的 LLM 在識別未滿足的需求方面取得了 79% 至 94% 的 F1 分數,證明了 LLM 在需求驗證方面的潛力。此外,研究還發現,系統規格的複雜度、未滿足需求的數量、提示策略和系統規格的文本風格都會影響 LLM 的評估品質。
主要結論: LLM 在驗證技術系統規格是否符合需求方面具有相當大的潛力,尤其是在使用少量樣本提示的情況下,其準確性可與傳統基於規則的系統相媲美。
研究意義: 本研究為將 LLM 應用於需求工程領域提供了寶貴的見解,並為開發更先進、基於 LLM 的需求驗證工具鋪平了道路。
研究限制與未來方向: 本研究的主要限制在於所使用的資料集規模相對較小。未來研究應使用更大、更多樣化的資料集來驗證這些發現,並探討其他因素(如時間效率和運算成本)對 LLM 效能的影響。此外,還應探討如何減輕 LLM 產生錯誤推論的風險,以及如何讓使用者更容易理解和評估 LLM 的推論結果。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor