Core Concepts
온라인 학습을 통해 결함 예측 모델을 구축할 때, 결함 간과로 인한 부정적인 영향을 완화하기 위한 방법을 제안한다.
Abstract
이 논문은 온라인 학습을 통해 결함 예측 모델을 구축할 때 발생할 수 있는 결함 간과 문제를 다룬다.
결함 간과에는 두 가지 유형이 있다:
- 모듈이 "결함 없음"으로 예측되면 테스트 케이스가 적게 작성되어 결함이 간과될 수 있다(Type 1 간과).
- 모듈이 "결함 있음"으로 예측되어도 테스트 중 결함이 간과될 수 있다(Type 2 간과).
이러한 결함 간과는 온라인 학습 기반 예측 모델의 정확도를 저하시킬 수 있다.
이를 해결하기 위해 저자들은 다음과 같은 방법을 제안한다:
- 초기 단계에서 일부 "결함 없음" 예측을 "결함 있음"으로 고정하는 방법
- Type 1 간과 발생률이 낮아지면 고정 예측을 중단하는 방법
실험 결과, 제안 방법은 AUC 저하를 방지하고 recall을 크게 향상시켰다. 이를 통해 결함 간과 문제를 효과적으로 해결할 수 있음을 보여주었다.
Stats
결함 간과 확률이 60% 이상일 때 기존 온라인 학습 모델의 recall이 10% 이상 저하되었다.
고정 예측 방법을 적용한 모델의 recall은 크게 향상되었지만, 일부 데이터셋에서 정확도가 5% 이상 저하되었다.
제안 방법을 적용한 모델은 결함 간과 확률이 80% 이상일 때 AUC와 F1 score가 향상되었다. 고정 예측 방법에 비해 AUC, 정확도, F1 score의 저하가 작았지만 기존 방법 대비 recall 향상은 지속적이었다.
Quotes
"When a module is regarded as defective by the prediction model, it is tested thoroughly (i.e., more effort is spent on testing it). In contrast, a module regarded as non-defective is tested much more lightly [4]."
"To suppress the negative influence, we propose to apply a method that fixes the prediction as positive during the initial stage of online learning."
"To avoid the degradation, we propose a new method which quits the fixed prediction when the rate (i.e., probability) of Type 1 overlooking is low according to the following procedure:"