Core Concepts
実業界の制約に基づくコードリバート予測の重要性とGNNを活用した解決策に焦点を当てる。
Abstract
AIがソフトウェアエンジニアリングタスクに適用され、特にソースコード分析が成長している。
コード欠陥検出とは異なり、コード変更がロールバックされる可能性を予測する新しい課題である。
GNNや不均衡分類、異常検知などの手法を組み合わせて実験を行い、実世界のデータセットで比較を行った。
実験結果から、データの極端な不均衡性がコードリバート予測に影響を与えることが示唆された。
さまざまな戦略やGNNアプローチの比較から、データセットの不均衡性が予測に与える影響が明らかになった。
Stats
Revert frequency last 30 days: 0.570, 直近30日間のリバート頻度は別のリバートで高い確率と対応しています。
File version: 0.326, 高いファイルバージョンはリバートの可能性が高くなります。
Commit to push lag days: 0.188, コミットからプッシュまでの遅延時間が長いほどリバート率が高くなります。
Total lines of code in push set: 0.151, より多くのコード行数はより高いリバート率と関連しています。
Total Cyclomatic complexity: 0.100, 高い総循環的複雑性はリバート確率の増加と関連しています。
Quotes
"Early prediction of code reversion effectively mitigates potential risks."
"Code revert prediction is a novel and specialized form of software defect detection."
"Utilizing attributes, structures, downsampling techniques can improve code revert identification."