Core Concepts
開発者が明示的に認識し文書化する技術的負債(SATD)を検出するためのバランスの取れた拡張データセットの重要性。
Abstract
ABSTRACT:
SATDは、コードベース内の技術的ショートカットや一時的な解決策を開発者が明示的に認識および文書化する形態。
既存のSATDデータセットに不足しているラベル付きデータを補完するために、SATDAUGデータセットが共有されている。
INTRODUCTION:
技術負債(TD)は、ソフトウェア開発中に取られるショートカットや回避策を指し、将来のメンテナンスや修正作業に影響を与える。
SATDは、特定の種類の技術的負債であり、開発者が明示的に認識および文書化するもの。
RELATED WORK AND MOTIVATION:
過去10年間で34件以上の研究がSATD検出に焦点を当てて実施されており、Maldonado氏らによって提供されたデータセットに依存している。
Methodology: Data Augmentation:
テキストデータ拡張手法であるAugGPTを使用して、既存テキストから追加バージョンを生成し、元の意味を保持しながらパラフレーズした。
Dataset Description:
SATDAUGデータセットは4つの異なるCSVファイルから成り立ち、各ファイルはこの研究で考慮されているアーティファクトを示す分類と状態列を含んでいる。
Previous Uses of the SATDAUG Dataset:
BiLSTMとBERTモデルを訓練するために拡張データセットが使用され、元のデータセットと比較して大幅な汎化と改善されたモデルパフォーマンスが確認された。
Originality of the Dataset:
SATDAUGは高度な数値クラスター内で例数が増加したオリジナル性があり、これは従来研究結果(特にF1スコア)を向上させる可能性がある。
Further Improvements:
PSおよびCMアーティファクトを今後CCおよびISアーティファクトと数量的に整合させることで改善。
Potential Research Applications:
SATDAUGデータセットを使用してSATD識別タスクや分類タスクへのML/DLモデルパフォーマンス向上。
Limitations:
ラベリングプロセスから派生した間違ったラベル付けは拡張されたデータセット全体に影響し得る制限事項。ランダムサンプリングや手動注釈付けなど詳細な分析でこれら制限事項軽減可能。
Stats
自己批准技術負債(SATD)はソースコードコメントから抽出された101,762件のコメントから62種類のパターン特定。
Cohen's kappa係数+0.74:3人全員間で高い合意度あり。