핵심 개념
結合機器學習和大語言模型,提出CAT方法以實現成本效益的UI自動化測試,在WeChat測試中取得90%的完成率和$0.34的平均成本。
초록
本文提出CAT方法,旨在實現成本效益的UI自動化測試。CAT分為兩個階段:
-
任務描述分解階段:
- 利用檢索增強生成(RAG)技術,從先前的應用測試數據集中檢索相似的示例,作為大語言模型的少樣本學習上下文,幫助模型理解應用程序的使用情況並生成可能的操作步驟。
-
UI自動化執行階段:
- 採用機器學習方法將生成的操作步驟與UI元素進行匹配,並利用大語言模型作為補充優化器,解決UI元素不匹配的問題。
實驗結果顯示,CAT在WeChat測試數據集上實現了90%的完成率,平均成本僅為$0.34,顯著優於現有方法。此外,CAT已集成到WeChat的實際測試平台中,在6個月內自動執行了6,000次UI自動化測試,發現了141個bug,大大減輕了開發人員的測試負擔。
통계
每個任務描述平均包含18.7個單詞。
每個任務描述平均包含7.3個操作步驟。
實驗數據集包含39,981個任務描述,其中2,010個(5%)用於測試,37,971個(95%)用於檢索。
CAT在WeChat測試數據集上實現了90%的完成率。
CAT的平均成本為$0.34,比最佳基線方法節省了$1,467。
在6個月的實際測試中,CAT自動執行了6,000次UI自動化測試,發現了141個bug。
인용구
"結合機器學習方法和大語言模型可以顯著緩解這些問題,使測試系統在工業使用中更加健壯。"
"我們相信,我們的方法應該很容易適用於其他工業應用程序,因為工業應用程序測試中使用的數據集具有共通性。"