Khái niệm cốt lõi
다양한 비지도 유사도 측정 기법을 결합한 앙상블 학습 접근법을 통해 소스 코드 유사도 평가 성능을 향상시킬 수 있다.
Tóm tắt
이 연구는 소스 코드 유사도 평가를 위한 새로운 앙상블 학습 접근법을 소개한다. 다양한 비지도 유사도 측정 기법의 장점을 활용하고 단점을 보완하여 성능을 향상시키는 것이 핵심 아이디어이다.
먼저, 소스 코드 유사도 측정의 문제를 정의하고 앙상블 개념을 소개한다. 그리고 대표적인 앙상블 기법인 배깅과 부스팅을 설명한다. 이를 통해 다양한 비지도 유사도 측정 기법을 결합하여 성능을 높일 수 있다.
실험 평가에서는 소규모 데이터셋(IR-Plag)과 대규모 데이터셋(BigCloneBench)을 사용하여 제안 방법의 성능을 검증한다. 결과적으로 제안 방법은 개별 유사도 측정 기법보다 우수한 성능을 보였으며, 대규모 데이터셋에서는 최신 기술 수준에 근접한 성과를 달성했다. 특히 소규모 데이터셋에서 제안 방법이 더 나은 결과를 보였는데, 이는 레이블된 데이터가 부족한 상황에서 비지도 기법의 장점을 잘 활용할 수 있음을 시사한다.
이 연구는 소스 코드 유사도 평가를 위한 새로운 앙상블 접근법을 제시하고, 다양한 실험을 통해 그 효과를 검증했다. 향후에는 다른 앙상블 기법의 적용, 해석 가능성 향상, 확장성 개선 등의 연구를 진행할 계획이다.
Thống kê
소스 코드 유사도 측정을 위해 사용된 데이터셋은 총 59,201개의 토큰으로 구성되어 있으며, 540개의 고유 토큰을 포함하고 있다.
데이터셋의 파일 크기는 최소 40개 토큰에서 최대 286개 토큰까지 다양하게 분포되어 있다.
Trích dẫn
"다양한 비지도 유사도 측정 기법의 장점을 활용하고 단점을 보완하여 성능을 향상시키는 것이 핵심 아이디어이다."
"제안 방법은 개별 유사도 측정 기법보다 우수한 성능을 보였으며, 대규모 데이터셋에서는 최신 기술 수준에 근접한 성과를 달성했다."