이 연구는 코드 생성 작업을 위한 협업 학습 방법의 약속과 위험을 조사한다. 데이터셋의 크기와 다양성, 데이터 제시 순서가 협업 학습 모델의 효과성에 미치는 영향을 평가하였다. 또한 중앙집중형, 연방형, 점진적 학습 등 다양한 협업 학습 설정에서 학습 데이터의 암기 정도를 체계적으로 분석하였다.
연구 결과, 데이터셋의 크기와 다양성이 협업 코드 생성 모델의 성공에 핵심적인 요인임을 보여주었다. 연방형 학습은 데이터 보호 측면에서 우수한 성능을 보이며, 중앙집중형 학습에 필적하는 성능을 달성하였다. 그러나 연방형 학습에서도 학습 데이터의 일부가 그대로 생성되는 암기 현상이 발견되었다. 점진적 학습의 경우 데이터 제시 순서에 따라 효과성과 암기 경향이 크게 달라졌다. 또한 중앙집중형 및 연방형 학습에서 조직 간 클론의 암기가 광범위하게 나타났다.
이러한 발견은 학습 데이터가 노출되지 않더라도 추론 단계에서 데이터 유출 위험이 지속됨을 강조한다. 이를 바탕으로 연구진은 다양한 데이터 소스를 활용하는 협업 실행을 최적화하기 위한 전략적 제언을 제시하였다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Zhi Chen, Li... ב- arxiv.org 09-19-2024
https://arxiv.org/pdf/2409.12020.pdfשאלות מעמיקות