Centrala begrepp
プログラミング言語バージョン間での深層学習ベースのコード補完モデルの一般化能力を検証する。
Sammanfattning
この論文は、Java言語バージョン間での深層学習ベースのコード補完モデルの一般化能力に焦点を当てています。主な結果として、異なる言語バージョン間で明確な性能差があり、特にJava 2および17では最も性能が低かったことが示されました。さらに、特定バージョンへの微調整が性能向上に有効であることが示唆されました。
INTRODUCTION
- AIやDLがソフトウェアエンジニアリングに進出し、コード補完はIDEで重要な機能です。
- 多くのタスクはテキストからテキストへ変換されるため、LLMsやCodeT5などが適している。
- コード補完は開発者の生産性向上に寄与し、GitHub CopilotなどDLツールが広まっている。
STUDY DESIGN
- Java 8をトレーニングバージョンとして使用し、他のJavaバージョンでCodeT5を評価。
- テストセット作成時にインスタンスごとの複雑さを評価するメトリクスを定義。
- 新しいAPI導入や新しい言語構造が性能に与える影響を分析。
RESULTS DISCUSSION
- 異なるJavaバージョン間で性能差があり、新しいAPI導入は性能低下に関連している可能性あり。
- 特定バージョンへの微調整は大幅な性能向上をもたらすことが示された。
Statistik
Java 8は2014年リリースで最高パフォーマンス。
Java 2では最低パフォーマンス(3%)。
Citat
"Code completion is a key feature of Integrated Development Environments (IDEs)."
"Pre-training the model can be very valuable, especially when the predictions are quite challenging."