Core Concepts
大規模言語モデル(LLM)を使用して、コードの理由付けを行う自動障害ローカライゼーションのステップバイステップ推論に焦点を当てる。
Abstract
この研究では、FuseFLと呼ばれる手法を提案し、大規模言語モデル(LLM)を活用して開発者がコードに関する推論を行うことに焦点を当てました。FuseFLは、Spectrum-Based Fault Localization(SBFL)結果、テストケースの実行結果、およびコードの説明などの情報の組み合わせを利用して、障害ローカライゼーション結果を向上させます。研究では324件の不良コードファイルに対する評価が行われ、FuseFLは他のSBFL技術やXAI4FLよりも優れた結果を示しました。また、生成された説明についても評価が行われ、人間が生成した説明と比較して適切性や理解可能性が確認されました。
背景と関連研究
SBFL技術は不具合箇所を特定するために広く使用されています。
LLMは自然で一貫性のあるテキスト生成能力から有望な結果が得られています。
FuseFL手法
LLMモデルChatGPTを利用し、SBFL結果やテストケース実行結果などの情報を含めたプロンプト指示方法であるChain of Thought(CoT)プロンプトが採用されました。
実験設定と評価メトリクス
Top-KメトリクスやBLEURTスコアなどが使用されました。
結果と考察
FuseFLはTop-Kで優れた成績を収めました。また、人間とFuseFLによる生成された説明の評価でも高い正確性や理解可能性が示されました。
Stats
自動化された障害ローカライゼーション手法FuseFLはTop-1で197件の不具合箇所を成功裏に特定しました。
BLEURTスコアは0.492であり、高い正確性と理解可能性が示唆されます。