コード類似性評価におけるAbstract Syntax Tree編集距離の再検討
本研究では、プログラミング言語間でのAbstract Syntax Tree (AST)編集距離の有用性を探り、従来の系列類似性メトリックと比較する。AST編集距離は複雑なコード構造を捉えることができ、確立されたメトリックとの高い相関を示す。また、AST編集距離とGPTベースの類似性スコアの長所短所を、BLEU score、実行一致、Jaccard類似性と比較して分析する。最終的に、48の言語で効果的に機能するTSED (Tree Similarity of Edit Distance)メトリックを提案、最適化、公開する。