Conceitos essenciais
大型語言模型 (LLM) 在營建安全管理方面展現出巨大潛力,但需要系統性的評估和負責任的整合,以確保準確性、可靠性和安全性。
Resumo
營建安全領域的負責任人工智慧:大型語言模型與提示工程的系統性評估
本研究旨在評估大型語言模型 (LLM) 在營建安全管理方面的能力和限制,特別關注其在標準化安全認證考試中的表現。
資料集
研究使用了來自美國註冊安全專業人員委員會 (BCSP) 的三個認證考試的 385 道多項選擇題,涵蓋七個安全知識領域。
考題來源於 BCSP 官方題庫和 Pocket Prep 題庫,確保考題未包含在 LLM 的預先訓練數據中。
測試環境
使用基於 Python 的測試環境,並利用 OpenAI 應用程序接口 (API) 訪問 GPT-3.5 和 GPT-4o 模型。
採用 JSON 格式的結構化輸出,並設定溫度為 0 以減少隨機性。
實驗因素
**提示技巧:**直接提示 (DP)、思維鏈 (CoT) 和少樣本提示 (FS)。
**輸出結構:**推理包含、推理順序和答案格式。
**LLM 模型:**GPT-3.5 和 GPT-4o。
評估指標
**準確率:**LLM 提供的正確答案的百分比。
**可靠性:**LLM 在多次考試中保持相似準確率的能力。
**一致性:**LLM 在多次被提示相同問題時提供相同答案的程度。