Grunnleggende konsepter
GPT-3.5の少量学習、プロンプトデザイン、モデルファインチューニングがコードレビュー自動化タスクの性能に及ぼす影響を調査した。
Sammendrag
本研究は、GPT-3.5を用いたコードレビュー自動化タスクにおける少量学習、プロンプトデザイン、モデルファインチューニングの影響を調査した。
主な結果は以下の通り:
- 少量学習を行うと、ゼロショット学習と比べて、Exact Match(EM)が最大46.38%、CodeBLEUが最大3.97%向上した。これは、入力プロンプトに例示を含めることで、GPT-3.5がコード改善方法を学習できたためと考えられる。
- パーソナプロンプトパターンを含めると、EMが最大1.02%、CodeBLEUが最大0.15%低下した。パーソナプロンプトはGPT-3.5が実際の改善コードと同等のコードを生成する可能性を下げる。
- ファインチューニングを行うと、ゼロショット学習や少量学習と比べて、EMが最大9.74%、CodeBLEUが最大0.12%向上した。これは、大量の訓練データを使ってGPT-3.5が改善コード生成を学習できたためと考えられる。
- ファインチューニングしたGPT-3.5は、既存のコードレビュー自動化手法よりも最大11.48%高いEMを達成した。
以上より、GPT-3.5をコードレビュー自動化に活用する際は、(1)少量学習を行う、(2)パーソナプロンプトを使わない、(3)少量の訓練データでファインチューニングを行うことを推奨する。
Statistikk
少量学習を行うと、ゼロショット学習と比べてEMが最大46.38%向上した。
パーソナプロンプトを含めると、EMが最大1.02%低下した。
ファインチューニングを行うと、ゼロショット学習や少量学習と比べてEMが最大9.74%向上した。
ファインチューニングしたGPT-3.5は、既存手法よりも最大11.48%高いEMを達成した。
Sitater
"When few-shot learning is performed, GPT-3.5 achieves at least 46.38% higher EM and at least 3.97% higher CodeBLEU than GPT-3.5 that zero-shot learning is performed."
"When persona is included in input prompts to generate improved code, GPT-3.5 achieves at least 1.02% lower EM and 0.15% lower CodeBLEU than when persona is not included in the input prompts."
"Fine-tuned GPT-3.5 achieves at least 9.74% higher EM and 0.12% higher CodeBLEU than GPT-3.5 that zero-shot and few-shot learning is performed."
"The existing code review automation approaches achieve at least 5.47% higher EM than GPT-3.5 that zero-shot learning is performed while fine-tuned GPT-3.5 achieves at least 11.48% higher EM than the existing code review automation approaches."