本研究は、ソースコードの類似性を評価するための新しいアンサンブル学習アプローチを提案している。複数の無監督類似性尺度の強みを組み合わせることで、個々の尺度の弱点を補完し、全体としての性能を向上させることが狙いである。
具体的には、以下の手順で進められている:
既存研究で提案された21種類の無監督類似性尺度を収集し、それらの特徴と長所短所を整理した。
バギングとブースティングの2つのアンサンブル学習手法を用いて、これらの無監督尺度を組み合わせる方法を検討した。
小規模データセットと大規模データセットを用いて、提案手法の有効性を検証した。
実験の結果、提案手法は単一の無監督尺度を用いる手法を上回る性能を示した。特に、小規模データセットにおいては、最新の深層学習ベースの手法と同等の性能を達成できることが確認された。一方で、大規模データセットでは深層学習ベースの手法に及ばない結果となった。
本研究の意義は、無監督尺度の組み合わせによってソースコードの類似性評価の性能を向上させ、特に小規模データセットでの有効性を示したことにある。これにより、大量の学習データが得られない状況でも、ソースコードの類似性を高精度に検出できる可能性が示された。また、解釈可能性の確保や環境負荷の低減といった観点からも、提案手法の有用性が期待される。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問