本研究は、大規模言語モデル(LLM)のコード理解能力に対するコードドキュメンテーションの影響を実証的に分析したものである。
実験では、HumanEvalデータセットの関数コードを使用し、ドキュメンテーションの正確性と量を変化させた上で、LLMにユニットテストの生成を行わせた。その結果、以下のことが明らかになった:
正しくないドキュメンテーションは、LLMのコード理解を大幅に阻害する。一方、不完全なドキュメンテーションはLLMのコード理解にそれほど影響しない。
コード内の変数名を動物名やランダムな文字列に変更しても、LLMのコード理解能力にはほとんど影響がない。
コードにコメントを付与しても、LLMのコード理解能力に大きな変化は見られない。ただし、コメントがある場合の方が、生成されたユニットテストのコードカバレッジは高くなる。
ドキュメンテーションの一部を削除した場合、LLMのコード理解能力に大きな影響は見られない。
以上の結果から、LLMのコード理解には、ドキュメンテーションの正確性が重要であり、量的な影響は小さいことが示された。今後は、より複雑なコードやドキュメンテーションを用いた検証が必要である。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by William Mack... at arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03114.pdfDeeper Inquiries