이 연구는 스택 오버플로우 게시물 표현 학습에 대한 포괄적인 실험 연구를 수행했다.
첫째, 기존의 스택 오버플로우 전용 표현 모델인 Post2Vec과 BERTOverflow의 성능을 다양한 태스크에서 평가했다. 그 결과, 이 모델들은 기존 최신 기법들을 개선하지 못하는 것으로 나타났다.
둘째, 일반 도메인 언어 모델(RoBERTa, Longformer, GPT2)과 소프트웨어 공학 관련 텍스트 데이터로 사전 학습된 모델(CodeBERT, GraphCodeBERT, seBERT, CodeT5, PLBart, CodeGen)을 추가로 평가했다. 이를 통해 CodeBERT와 RoBERTa가 스택 오버플로우 게시물 표현에 적합한 것으로 나타났지만, 어떤 모델도 모든 태스크에서 일관되게 최고의 성능을 보이지는 않았다.
셋째, 이러한 발견을 바탕으로 SOBERT를 제안했다. SOBERT는 CodeBERT 모델을 스택 오버플로우 데이터로 추가 사전 학습하여 만든 모델로, 모든 태스크에서 기존 모델들을 일관되게 능가하는 성능을 보였다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Junda He,Zho... ב- arxiv.org 04-10-2024
https://arxiv.org/pdf/2303.06853.pdfשאלות מעמיקות