Core Concepts
SATDAUG는 기존 자기 인정 기술 부채 데이터셋을 증강하고 균형을 맞춘 데이터셋으로, 자기 인정 기술 부채 식별 및 분류 모델 학습을 위한 풍부한 데이터를 제공한다.
Abstract
이 연구는 자기 인정 기술 부채(SATD) 식별 및 분류를 위한 데이터셋인 SATDAUG를 소개한다. SATD는 개발자가 코드 내에서 기술적 단축, 우회 방법 또는 임시 솔루션의 존재를 명시적으로 인정하고 문서화하는 기술 부채의 한 형태이다.
기존 SATD 데이터셋은 클래스 불균형 문제를 겪고 있었다. 이를 해결하기 위해 본 연구에서는 AugGPT 기반 텍스트 증강 기법을 사용하여 SATDAUG 데이터셋을 생성했다. SATDAUG는 소스 코드 주석, 이슈 트래커, 풀 리퀘스트, 커밋 메시지 등 다양한 소프트웨어 개발 산출물에서 수집된 데이터로 구성된다.
데이터 증강 결과, SATD 식별 및 분류 작업을 위한 데이터셋의 균형이 크게 개선되었다. 이를 통해 기계 학습 및 딥 러닝 모델의 성능이 향상될 것으로 기대된다. 또한 SATDAUG 데이터셋을 활용하여 기존 연구를 재현하고 개선할 수 있는 기회가 제공된다.
Stats
소스 코드 주석(CC) 데이터셋에는 C/D 부채 2,703건, DOC 부채 2,700건, TES 부채 2,635건, REQ 부채 2,271건이 포함되어 있다.
이슈 트래커(IS) 데이터셋에는 C/D 부채 2,169건, DOC 부채 1,948건, TES 부채 2,028건, REQ 부채 2,134건이 포함되어 있다.
풀 리퀘스트(PS) 데이터셋에는 C/D 부채 510건, DOC 부채 505건, TES 부채 476건, REQ 부채 500건이 포함되어 있다.
커밋 메시지(CM) 데이터셋에는 C/D 부채 522건, DOC 부채 490건, TES 부채 522건, REQ 부채 513건이 포함되어 있다.