本研究は、コード生成タスクにおける協調的な訓練手法の可能性と危険性を調査しています。主な発見は以下の通りです:
データセットのサイズと多様性が協調的な訓練手法の成功に大きな影響を及ぼします。連邦学習は中央集権型訓練と同等の性能を発揮しつつ、訓練中のデータ保護に優れています。
中央集権型訓練と連邦学習では、訓練データの重複が多いほど記憶率が高くなる傾向にあります。一方、漸次学習では、訓練順序によって記憶率が大きく変動し、最後のデータセットが過剰に記憶される可能性があります。
中央集権型訓練と連邦学習では、組織間クローンの記憶が顕著な課題となります。これは、訓練データが非公開であっても、推論段階でデータ漏洩のリスクが存在することを示しています。
本研究の結果は、協調的な訓練実践を促進し、大規模なマルチソースコードリポジトリの潜在的価値を最大限に引き出すための重要な洞察を提供しています。また、プライバシーと著作権を保護する大規模コードモデルの機能強化の必要性を示唆しています。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Zhi Chen, Li... في arxiv.org 09-19-2024
https://arxiv.org/pdf/2409.12020.pdfاستفسارات أعمق