Alapfogalmak
사전 훈련된 언어 모델을 여러 중간 소프트웨어 엔지니어링 작업으로 순차적으로 파인튜닝하는 순서는 대상 작업의 성능에 유의미한 영향을 미치며, 이는 데이터 세트 특성, 작업 연관성 및 모델 학습 특성 간의 복잡한 상호 작용 때문입니다.
Kivonat
소프트웨어 엔지니어링 작업에서의 파인튜닝 순서 연구
본 연구 논문에서는 사전 훈련된 언어 모델을 여러 중간 소프트웨어 엔지니어링(SE) 작업으로 순차적으로 파인튜닝할 때 그 순서가 대상 작업의 성능에 미치는 영향을 실험적으로 분석했습니다. 저자들은 CodeXGLUE 벤치마크에서 네 가지 SE 작업(코드 복제 탐지, 결함 탐지, 코드 수정, 코드 번역)을 선택하고 CodeBERT를 사전 훈련된 모델로 사용했습니다.
본 연구는 두 가지 주요 연구 질문에 답하는 것을 목표로 합니다.
여러 중간 SE 작업을 사용한 파인튜닝 작업 순서가 대상 작업 성능에 중요한가요?
파인튜닝 순서가 대상 작업의 성능에 영향을 미치는 이유는 무엇인가요?
저자들은 네 가지 SE 작업의 모든 순열을 사용하여 CodeBERT를 순차적으로 파인튜닝하고 대상 작업에 대한 성능을 측정했습니다. 그들은 작업 순서의 영향을 분석하기 위해 10겹 교차 검증을 사용하고 통계적 유의성을 확인하기 위해 Welch의 t-검정을 수행했습니다. 또한 데이터 세트 특성(구문적 유사성, 의미적 유사성, 데이터 세트 크기), 작업 특성(작업 연관성) 및 모델 특성(프로빙 작업, 주의 분석)을 포함한 다양한 요소를 분석하여 관찰된 성능 차이를 설명했습니다.