이 연구는 중복 버그 보고서 탐지(DBRD) 문제를 해결하기 위해 검색 모델과 분류 모델을 결합한 새로운 시스템을 제안한다. 기존 연구들은 DBRD를 검색 작업 또는 분류 작업으로 다루었지만, 이 연구에서는 두 모델의 장점을 활용하여 효율성과 정확성의 균형을 달성하고자 한다.
먼저, 데이터 누출 문제를 해결하기 위해 클러스터 기반 데이터 분할 메커니즘을 도입한다. 이를 통해 중복 버그 쌍이 훈련, 개발, 테스트 세트에 균일하게 분포되도록 한다.
다음으로, 검색 모델과 분류 모델의 성능을 개별적으로 평가한다. 검색 모델로는 Sentence BERT를, 분류 모델로는 BERT, ALBERT, RoBERTa를 사용한다. 실험 결과, 이 변환기 기반 모델들이 기존 모델들을 능가하는 성능을 보였다.
마지막으로, 제안 시스템의 성능과 효율성을 평가한다. 제안 시스템은 검색 모델을 통해 후보 집합을 줄이고, 분류 모델을 통해 더 정확한 분류를 수행한다. 실험 결과, 제안 시스템은 분류 모델과 유사한 정확도를 유지하면서 검색 모델보다 크게 향상된 시간 효율성을 보였다.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Qianru Meng,... om arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.14877.pdfDiepere vragen