文獻資訊: Reinpold, L. M., Schieseck, M., Wagner, L. P., Gehlhoff, F., & Fay, A. (2024). Exploring LLMs for Verifying Technical System Specifications Against Requirements. arXiv preprint, arXiv:2411.11582v1.
研究目標: 本研究旨在探討大型語言模型 (LLM) 是否能夠像傳統基於規則的系統一樣,有效地判斷給定的系統規格是否滿足一系列需求。
研究方法: 研究人員以智慧電網領域為背景,設計了一系列實驗,將 LLM 的評估結果與基於 SysML 模型和 OCL 限制的正式規則系統進行比較。實驗中使用了不同複雜度的系統規格、不同數量的需求和不同的提示策略,並評估了 GPT-4o、GPT-3.5-turbo、Gemini-1.5 和 Claude 3.5 Sonnet 等四種 LLM 的效能。
主要發現: 實驗結果顯示,GPT-4o 和 Claude 3.5 Sonnet 等先進的 LLM 在識別未滿足的需求方面取得了 79% 至 94% 的 F1 分數,證明了 LLM 在需求驗證方面的潛力。此外,研究還發現,系統規格的複雜度、未滿足需求的數量、提示策略和系統規格的文本風格都會影響 LLM 的評估品質。
主要結論: LLM 在驗證技術系統規格是否符合需求方面具有相當大的潛力,尤其是在使用少量樣本提示的情況下,其準確性可與傳統基於規則的系統相媲美。
研究意義: 本研究為將 LLM 應用於需求工程領域提供了寶貴的見解,並為開發更先進、基於 LLM 的需求驗證工具鋪平了道路。
研究限制與未來方向: 本研究的主要限制在於所使用的資料集規模相對較小。未來研究應使用更大、更多樣化的資料集來驗證這些發現,並探討其他因素(如時間效率和運算成本)對 LLM 效能的影響。此外,還應探討如何減輕 LLM 產生錯誤推論的風險,以及如何讓使用者更容易理解和評估 LLM 的推論結果。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Lasse M. Rei... lúc arxiv.org 11-19-2024
https://arxiv.org/pdf/2411.11582.pdfYêu cầu sâu hơn