المفاهيم الأساسية
通過分析Stack Overflow和GitHub上的開發者討論,該研究揭示了科學工作流程系統開發過程中面臨的挑戰,特別是在工作流程創建、任務管理和執行方面,並呼籲開發更友好的工具和資源來應對這些挑戰。
論文概述
本研究論文深入探討了科學工作流程系統(SWSs)開發過程中開發者所面臨的挑戰。研究者分析了Stack Overflow和GitHub平台上的大量數據,包括帖子、議題和拉取請求,以揭示開發者在使用和開發SWSs時遇到的常見問題和困難。
研究方法
數據來源: 研究者從Stack Overflow和GitHub收集了與SWSs相關的大量數據,包括帖子、議題和拉取請求。
數據預處理: 對收集到的數據進行清洗和預處理,去除無關信息,例如代碼片段、HTML標籤和停用詞。
主題建模: 採用BERTopic主題建模技術,自動識別和提取數據中的潛在主題,並對主題進行標註和分析。
挑戰分析: 根據主題分析結果,結合帖子的瀏覽量、評分、解決狀態和解決時間等指標,評估各個挑戰的普遍性和難度。
主要發現
Stack Overflow: 開發者在Stack Overflow上討論的SWSs相關主題主要集中在工作流程創建與調度、分佈式任務管理、數據處理、數據結構與操作、工作流程執行、規則管理、任務依賴管理、數據轉換、學習和自動化等方面。其中,工作流程創建與調度和分佈式任務管理是討論最熱烈的兩個主題。
GitHub: 開發者在GitHub上提交的SWSs相關議題和拉取請求主要集中在錯誤修復、文檔、依賴管理、數據管理與任務調度、註釋、Kubernetes部署、測試與持續集成、性能優化、用戶界面與體驗、安全、社區和貢獻等方面。其中,錯誤修復和文檔是兩個最常見的議題類型。
挑戰的普遍性和難度: 研究發現,工作流程執行是Stack Overflow上最具挑戰性的主題,而Kubernetes部署是GitHub上最難解決的問題。
研究結論
SWSs開發面臨著諸多挑戰,特別是在工作流程創建、任務管理和執行方面。
開發者迫切需要更友好的工具、更詳細的文檔和更活躍的社區支持來應對這些挑戰。
研究貢獻
本研究首次全面而深入地揭示了SWSs開發過程中開發者所面臨的挑戰。
研究結果為SWSs的設計和開發提供了寶貴的參考,有助於開發更實用、更可靠、更高效的SWSs。
الإحصائيات
研究收集了 35,619 個 Stack Overflow 帖子和 140,400 個 GitHub 議題和拉取請求。
工作流程創建和調度主題佔 Stack Overflow 帖子的 29.59%。
分佈式任務管理主題佔 Stack Overflow 帖子的 26.52%。
工作流程執行被認為是 Stack Overflow 上最具挑戰性的主題。
Kubernetes 部署被認為是 GitHub 上最難解決的問題。