المفاهيم الأساسية
AdaCCDは、異言語適応に基づくコードクローン検出のための適応的意味対比発見を提供します。
الملخص
AdaCCDは、新しい言語でクローンコードを検出する革新的な方法であり、ラベルのない言語で顕著なパフォーマンス向上を実現し、監督されたファインチューニング手法と同等のパフォーマンスを達成します。この研究では、異なるプログラミング言語でコードクローンを分析するモデルが可能になります。低リソース言語の注釈付きデータ不足が重要な障壁となっています。
الإحصائيات
AdaCCDは5つのプログラミング言語から成る多言語コードクローン検出ベンチマークを構築しています。
AdaCCDは他の基準線よりも有意な改善を達成し、教師ありファインチューニングと同等のパフォーマンスを実現しています。
クラスタリングと近傍探索から発見された意味的に類似した対比を使用してAdaCCDは表現力を閉じ込めます。
AdaCCDは変換されたコントラストと発見されたコントラストの両方を活用して精度向上に取り組んでいます。
バックトランスレーションや識別子名前変更などさまざまなプログラム変換技術がAdaCCDに効果的に組み込まれています。
اقتباسات
"Code Clone Detection, which aims to retrieve functionally similar programs from large code bases, has been attracting increasing attention."
"Large projects often consist of multiple programming languages, urging the need for a model that supports multiple languages at the same time."
"We propose AdaCCD, a novel cross-lingual adaptation method that can detect cloned codes in a new language without annotations in that language."
"Our contributions can be summarized as three folds: focusing on cross-lingual adaptation for code clone detection, proposing AdaCCD leveraging PPLMs and contrastive learning, and designing an Adaptively Refined Contrastive Learning framework."
"In experiments we adapt GraphCodeBERT and CodeBERT to five low-resource languages with significant performance improvement."