toplogo
Logga in

AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual Adaptation for Code Clone Detection


Centrala begrepp
AdaCCDは、異言語適応に基づくコードクローン検出のための適応的意味対比発見を提供します。
Sammanfattning

AdaCCDは、新しい言語でクローンコードを検出する革新的な方法であり、ラベルのない言語で顕著なパフォーマンス向上を実現し、監督されたファインチューニング手法と同等のパフォーマンスを達成します。この研究では、異なるプログラミング言語でコードクローンを分析するモデルが可能になります。低リソース言語の注釈付きデータ不足が重要な障壁となっています。

edit_icon

Anpassa sammanfattning

edit_icon

Skriv om med AI

edit_icon

Generera citat

translate_icon

Översätt källa

visual_icon

Generera MindMap

visit_icon

Besök källa

Statistik
AdaCCDは5つのプログラミング言語から成る多言語コードクローン検出ベンチマークを構築しています。 AdaCCDは他の基準線よりも有意な改善を達成し、教師ありファインチューニングと同等のパフォーマンスを実現しています。 クラスタリングと近傍探索から発見された意味的に類似した対比を使用してAdaCCDは表現力を閉じ込めます。 AdaCCDは変換されたコントラストと発見されたコントラストの両方を活用して精度向上に取り組んでいます。 バックトランスレーションや識別子名前変更などさまざまなプログラム変換技術がAdaCCDに効果的に組み込まれています。
Citat
"Code Clone Detection, which aims to retrieve functionally similar programs from large code bases, has been attracting increasing attention." "Large projects often consist of multiple programming languages, urging the need for a model that supports multiple languages at the same time." "We propose AdaCCD, a novel cross-lingual adaptation method that can detect cloned codes in a new language without annotations in that language." "Our contributions can be summarized as three folds: focusing on cross-lingual adaptation for code clone detection, proposing AdaCCD leveraging PPLMs and contrastive learning, and designing an Adaptively Refined Contrastive Learning framework." "In experiments we adapt GraphCodeBERT and CodeBERT to five low-resource languages with significant performance improvement."

Viktiga insikter från

by Yangkai Du,T... arxiv.org 03-07-2024

https://arxiv.org/pdf/2311.07277.pdf
AdaCCD

Djupare frågor

How can the concept of cross-lingual adaptation in code clone detection be applied to other areas of software engineering

ソフトウェアエンジニアリングの他の領域において、コードクローン検出におけるクロスリンガル適応の概念はどのように適用できますか? AdaCCDなどのクロスリンガル適応手法は、コードクローン検出以外のソフトウェアエンジニアリング領域でも有効です。例えば、自然言語処理や画像処理といった分野では、異なる言語やデータセット間でモデルを転移学習させる際にも利用できます。特定言語で訓練されたモデルを新しい言語やドメインに適応させることで、ラベル付きデータが不足している場合でも性能向上が期待されます。
0
star