本文探討如何確保自動駕駛軟體的可靠性和安全性,強調模擬、測試和驗證方法在開發過程中的重要性。
評估大型語言模型效能時,使用現有錯誤基準測試可能會產生誤導性結果,因為模型可能已經記住了這些基準測試的內容,特別是像 Defects4J 這樣歷史悠久的基準測試。
這份報告比較了 VVC 和 VVC+LCEVC 兩種編碼器在 4K 解析度下的效能,發現 VVC+LCEVC 在相同主觀品質下所需的位元率較低。
本文提出了一種名為 FL4Deep 的系統級錯誤定位技術,用於識別和定位基於深度學習的軟體系統中的錯誤。
本文介紹了一個名為 AI-COMPASS 的新型測試工具,旨在全面評估人工智能系統的性能,特別關注對抗性穩健性、模型可解釋性和神經元分析。
深度學習演算法在傳統和 Just-In-Time 軟體缺陷預測模型中均展現出良好的預測準確度,而程式碼指標如程式碼行數、程式碼複雜度以及開發者經驗在兩種模型中都被證明具有顯著影響。
本研究探討了量子神經網路 (QNN) 在實際軟體測試中的可行性,特別是將其應用於癌症登記系統 (CaReSS) 的測試中,並與現有的經典機器學習方法進行了比較。
智慧能源系統的互操作性測試對於確保不同能源系統應用程式和設備之間的無縫整合至關重要,但由於標準、協議和測試方法的多樣性,這項工作面臨著挑戰,需要協調一致的測試方法和框架來應對這些挑戰。
大型語言模型 (LLM) 可以有效地用於自動修復軟體漏洞,尤其是在與模糊測試等技術結合使用時,這為增強開源軟體的安全性提供了新的途徑。
本文提出了一種針對量子神經網路 (QNN) 的新型測試框架 QCov,旨在通過多粒度覆蓋率指標系統評估 QNN 的狀態探索,從而提高其穩健性和可靠性。